Musisz zainstalować moduł PyPDF2 aby móc pracować z plikami PDF w Pythonie 3.4. PyPDF2 nie może wyodrębnić obrazów, wykresów lub innych mediów, ale może wyodrębnić tekst i zwrócić go jako ciąg znaków w języku Python. Aby go zainstalować, uruchom polecenie pip install PyPDF2
z wiersza poleceń. W nazwie tego modułu rozróżniana jest wielkość liter, dlatego należy wpisać "y" małymi literami, a wszystkie pozostałe znaki dużymi literami.
>>> import PyPDF2
>>> pdfFileObj = open('my_file.pdf','rb') #'rb' for read binary mode
>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
>>> pdfReader.numPages
56
>>> pageObj = pdfReader.getPage(9) #'9' is the page number
>>> pageObj.extractText()
ostatnie oświadczenie zwraca cały tekst, który jest dostępny na stronie 9 dokumentu "my_file.pdf".
Nie wiem, dlaczego głosowanie w dół. Jak już wspomniałem, sprawdziłem wszystkie dostępne, a także w google. Jedyny, który znalazłem, który może być użyty z Pythonem 3.4, był w tym [Szczegóły xPDF] (http://stackoverflow.com/questions/18320932/looking-for-recommendation-on-how-to-convert-pdf-into- format ustrukturyzowany? lq = 1) wszystkie pozostałe są w wersji 2.7. Nic nie znalazłem w wersji 3.4 Pythona. Prośba o komentarz także w przypadku głosowania. – Bonson