2010-09-30 14 views
7

Powiel możliwe:
Tool to compare large numbers of PDF files?Niezawodny sposób (programowo) porównywania plików PDF?

Jestem w klasycznym scenariuszu, w którym firma daje kilka nowych formularzy PDF na nowy rok bez zmiany zauważa w ogóle, a ty powinni dowiedzieć się, co różni się od tych z poprzedniego roku.

Mówię tu o mnóstwie formularzy, więc staram się znaleźć sposób porównywania plików PDF w celu zarysowania różnic bez konieczności ręcznego przechodzenia przez każdą z nich.

Mój pomysł polegał na wyodrębnieniu całego tekstu z plików PDF i zrzuceniu go do pliku .txt, a następnie uruchomieniu różnic w plikach tekstowych, ale brzmi to okropnie.

Moje pytanie mówi programowo, ale będę zadowolony z wszelkich wiarygodnych narzędzi do porównywania plików PDF, a przede wszystkim do uzyskania pomysłu od ludzi. Również chętny do rozrywki wszelkie rozwiązania programistyczne (najlepiej w C# ale pls strzelać do wszelkie pomysły).

+0

Dlaczego ten duplikat? jednoznacznie stawia się pytanie, jak to zrobić programowo. Dowolna liczba narzędzi do instalacji nie jest odpowiedzią na to pytanie. – Vin

Odpowiedz

8

Istnieje wiele programów, które twierdzą, że różnią się plikami pdf. Nigdy nie musiałem jej używać, ale jeśli będzie to proces powtarzający się, myślę, że rozsądnie byłoby, gdyby Twoja firma zainwestowała w jedno z nich. Tylko Google "pdf diff" dla wielu potencjalnych aplikacji.

Dodatkowo, twoja sytuacja jest bardzo podobna do tego pytania: Tool to compare large numbers of PDF files? Myślę, że jego dyskusja może pomóc.

+0

dzięki temu - to pytanie jest rzeczywiście bardzo podobne (z jakiegoś powodu nie wyskoczyło, kiedy skomponowałem moje). – JohnIdol

4

Poszedłem do podejścia do uzyskania surowych danych z pliku PDF, a następnie przy użyciu Word lub TortiseSVN, lub WinMerge, etc ... dbać o kawałek porównania. W moim przypadku zrobiłem porównanie w RichTextBox w C# ... kolorowanie różnic, itp ... ponieważ chcieliśmy to wszystko w naszej aplikacji.

Oto, co zrobiłem ... PDF comparison jak próbowałem porównać mieszane dokumenty, Word i PDF.

Jednak polecam PDFBox do parsowania, trochę bardziej elegancki ... chociaż iTextSharp działało ok ...

2

pisałem bloga sugerujące pewne podejścia do porównywania plików PDF na https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

+0

przekonwertować plik PDF na obraz, a następnie porównać i nadal potrzebować interwencji człowieka? Jak to jest przydatne? – vsingh

+0

Oprogramowanie może Ci powiedzieć, czy nie uległy zmianie, więc wiesz, że niczego nie uszkodziłeś.Tylko człowiek może ocenić wszelkie zmiany. –

7

I jestem deweloperem w wersji Docotic.Pdf Library. Używamy porównania PDF w testach jednostkowych w celu sprawdzenia, czy test generuje plik PDF zgodnie z oczekiwaniami. PDF to zbiór specjalnych obiektów i porównujemy wszystkie obiekty PDF ignorując niektóre właściwości, takie jak ID trailerów i informacje o twórcach. Ta implementacja działa dobrze.

Możesz wypróbować metodę PdfDocument.DocumentsAreEqual. Ta metoda mówi, że dokumenty są równe, bez konkretnych różnic. Możesz skontaktować się z nami, jeśli potrzebujesz więcej funkcji.

Powiązane problemy