Czy ktoś wie o bibliotece Java o otwartym kodzie źródłowym, która wykona rozbudowane porównanie części tekstowych plików pdf?Java Pdf Biblioteka Diff
Idealnie chciałbym coś, co dałoby różnicę w postaci łatki.
Czy ktoś wie o bibliotece Java o otwartym kodzie źródłowym, która wykona rozbudowane porównanie części tekstowych plików pdf?Java Pdf Biblioteka Diff
Idealnie chciałbym coś, co dałoby różnicę w postaci łatki.
Wyodrębnij tekst w formacie pdf za pomocą http://incubator.apache.org/pdfbox/ i utwórz różnicę za pomocą http://code.google.com/p/google-diff-match-patch.
Jeśli pliki PDF różnią się tylko tekstem, można również zrasteryzować strony, a następnie spojrzeć na różnice w ten sposób - używamy tego do wyników testów regresji na naszym kodzie PDF.
Czy są jakieś biblioteki lub kod do rasteryzacji pliku PDF? Również przy rasteryzacji, wynik zawsze będzie taki sam pod względem skrótu MD5/SHA1? Czy będziecie musieli go rozróżnić za pomocą rozmytego narzędzia porównywania, takiego jak Sikuli itp.? – David
Po prostu zauważyłem, że Apache PDFBox może rasteryzować PDF na obrazy według stron. – David
Możesz obejrzeć Xdiffweb.com. Jest to projekt open source oparty na apache pdfbox.
Dzięki. Wygląda na to, że aplikacja jest wyłączona. – mac
Być może potrafisz wyjaśnić swoje oczekiwania. Istnieje wiele sposobów tworzenia dwóch różnych plików PDF, które wyglądają dokładnie tak samo. Pamiętaj też, że pliki PDF nie muszą zawierać tekstu do wyszukania. –