2009-05-20 18 views
6

Czy ktoś wie o bibliotece Java o otwartym kodzie źródłowym, która wykona rozbudowane porównanie części tekstowych plików pdf?Java Pdf Biblioteka Diff

Idealnie chciałbym coś, co dałoby różnicę w postaci łatki.

+0

Być może potrafisz wyjaśnić swoje oczekiwania. Istnieje wiele sposobów tworzenia dwóch różnych plików PDF, które wyglądają dokładnie tak samo. Pamiętaj też, że pliki PDF nie muszą zawierać tekstu do wyszukania. –

Odpowiedz

0

Jeśli pliki PDF różnią się tylko tekstem, można również zrasteryzować strony, a następnie spojrzeć na różnice w ten sposób - używamy tego do wyników testów regresji na naszym kodzie PDF.

+0

Czy są jakieś biblioteki lub kod do rasteryzacji pliku PDF? Również przy rasteryzacji, wynik zawsze będzie taki sam pod względem skrótu MD5/SHA1? Czy będziecie musieli go rozróżnić za pomocą rozmytego narzędzia porównywania, takiego jak Sikuli itp.? – David

+0

Po prostu zauważyłem, że Apache PDFBox może rasteryzować PDF na obrazy według stron. – David

0

Możesz obejrzeć Xdiffweb.com. Jest to projekt open source oparty na apache pdfbox.

+0

Dzięki. Wygląda na to, że aplikacja jest wyłączona. – mac