Potrzebuję wyodrębnić dane z niektórych dokumentów PDF (przy użyciu Java). Muszę wiedzieć, jaki byłby najłatwiejszy sposób na zrobienie tego.Jaki jest najłatwiejszy sposób wyodrębniania danych z pliku PDF?
Próbowałem iText. To dość skomplikowane dla moich potrzeb. Poza tym myślę, że nie jest ona dostępna za darmo w komercyjnych projektach. Więc nie jest to opcja. Próbowałem również PDFBox i wpadłem na różne błędy NoClassDefFoundError
.
Przeszukałem kilka innych opcji, takich jak PDF Clown, jPod, ale nie mam czasu na eksperymentowanie ze wszystkimi tymi bibliotekami. Opieram się na doświadczeniach społeczności z czytaniem plików PDF przez Javę.
Należy pamiętać, że nie trzeba tworzyć ani modyfikować dokumentów PDF. Po prostu potrzebuję rozbudować dane tekstowe z dokumentów PDF o złożoności złożonej z umiarkowanego poziomu.
Proszę zaproponować najszybszy i najłatwiejszy sposób wyodrębnienia tekstu z dokumentów PDF. Dzięki.
Thanks @Mauricio, ale niestety biblioteka musi być wolny. :-( –
Zaufaj mi, próbowałem wielu darmowych bibliotek tam, a one nie są nawet zbliżone do wydajności i opcji JPedala. Wierzę, że licencja jest podobna do 800 USD, więc jest całkiem tania, jeśli chodzi o funkcjonalność. Jeśli naprawdę tego potrzebujesz, powinieneś poprosić swoją firmę, aby uzyskała coś, co działa najlepiej, jak to możliwe. –