Problem
Próbuję ustalić, jaki typ dokumentu jest (np. Prośba, korespondencja, wezwanie do stawiennictwa itp.), Przeszukując jego tekst, najlepiej za pomocą pythona. Wszystkie pliki PDF można przeszukiwać, ale nie znalazłem rozwiązania do analizowania go za pomocą pythona i zastosowania skryptu do przeszukiwania (najpierw nie trzeba go konwertować do pliku tekstowego, ale może to wymagać dużej ilości zasobów dla n dokumentów).Wyszukiwanie tekstu w pliku PDF za pomocą języka Python?
Co robiłem dotychczas
Przyjrzeliśmy się pypdf, pdfminer, Adobe PDF Documentation, a wszelkie pytania tutaj udało mi się znaleźć (choć żaden wydawało się bezpośrednio rozwiązać ten problem). PDFminer wydaje się mieć największy potencjał, ale po przeczytaniu dokumentacji nie jestem nawet pewien, od czego zacząć.
Czy istnieje prosta, skuteczna metoda czytania tekstu w formacie PDF, na stronie, linii lub w całym dokumencie? Lub inne obejścia?
Szukałem tego samego rozwiązania. Problem polega na tym, że dokumenty PDF są znane z dzielenia tekstu na fragmenty trudne do złożenia. To zależy od programu, który napisał PDF. Skończyłem na używaniu PDFminera i dużo "elif" kodu do parsowania plików PDF. –
Po prostu myśli, może nie praktyczne ... Jeśli jesteś zdesperowany, aby znaleźć obejście problemu, możesz spróbować wywołać pdfgrep (http://pdfgrep.sourceforge.net/), aby wykonać wyszukiwanie. –