2008-11-09 11 views
20

Jak mogę przekonwertować pliki PDF na HTML za pomocą Pythona?Konwersja plików PDF na HTML za pomocą Pythona

Zastanawiałem się nad tym, co Google robi (lub wydaje się robić) w celu indeksowania plików PDF.

Moim ostatecznym celem jest ustawienie Apache, aby wyświetlał HTML plików PDF, więc wszystko, co prowadzi mnie w tym kierunku, również zostałoby docenione.

Odpowiedz

5

Pakietudostępnia narzędzie pdf2html, którego możesz użyć. Istnieje również Python binding dla libpoppler.

+0

Powiązanie Pythona służy głównie do renderowania pliku PDF w widgecie/ui GTK, więc nie jestem pewien, czy mogłoby to pomóc. –

+0

Tak naprawdę go nie użyłem, ale ujawnia on poppler_page_get_text, co może być przydatne dla OP. –

+0

Zgadza się, ale wydaje się, że całe marnowanie powiązań GTK/Glib, jeśli to wszystko, czego wymaga O.P., zwłaszcza, że ​​istnieją inne prostsze sposoby, które nie zależą od zestawu narzędzi interfejsu użytkownika (np. Pdf2html, o którym wspomniałeś). Powinienem powiedzieć, że ogólnie lubię wiązania i byłam oryginalnym autorem. Może jednak nie w tym przypadku. –

Powiązane problemy