Wyodrębnij/zidentyfikuj tabele z pythona PDF

Czy istnieją biblioteki open source, które obsługują identyfikację tabeli & ekstrakcji?Wyodrębnij/zidentyfikuj tabele z pythona PDF

przez to znaczy:

zidentyfikować struktury tabeli istnieje
klasyfikować tabeli z jego zawartością
pobiera dane z tabeli w przydatnego formatu wyjściowego np JSON/CSV itd

ja przejrzałem podobne pytania na ten temat i okazało się, co następuje:

PDFMiner który rozwiązuje problemu 3, ale wydaje się, że użytkownik ma obowiązek podać do PDFMiner gdzie dla każdej tabeli istnieje tabela (popraw mnie, jeśli się mylę)
pdf-table-extract, która próbuje rozwiązać problem 1, ale zgodnie z listą To-Do, nie może obecnie zidentyfikować tabel oddzielonych białymi znakami. To jest problem, ponieważ wszystkie tabele w moich plikach PDF są oddzielone białymi znakami!

Obecnie myślę, że musiałbym poświęcić wiele czasu na opracowanie rozwiązania uczenia maszynowego w celu identyfikacji struktur tabeli z plików PDF. Dlatego wszelkie alternatywne podejścia byłyby więcej niż mile widziane!

Źródło

2015-02-16 Alexander McFarlane

Jeśli możesz używać także narzędzi spoza Pythona, możesz rzucić okiem na [tabula] (http://tabula.technology/). – mkl

dzięki. Na pewno się tym zajmiemy. Jestem chętny do znalezienia rozwiązania w python, choć ze względu na szybkość, w której można zapisać Pythona –

powinno się przyjrzeć się tej odpowiedzi kopalni:

Extracting table contents from a collection of PDF files

a także rzucić okiem na wszystkich linków zawartych w nim.

Tabula/TabulaPDF jest obecnie najlepszym narzędziem do ekstrakcji tabel, które jest dostępne do skrobania PDF.

Źródło

2015-02-17 01:00:13

tylko aktualizacja skuteczności tej odpowiedzi ... Zhackowałem rozwiązanie razem używając 'tabula' w zeszłym roku do iteracji przez około 100 Pliki PDF, które miały kilka wspólnych formatów. Nie była ładna, ale była najlepsza z najgorszych i zaoszczędzonych znacznych chwil. –

Czy https://pypi.python.org/pypi/pdftable spełni wymagania? –

Chciałbym tylko dodać do bardzo pomocny odpowiedź od Kurt Pfeifle - jest tam teraz wrapper Pythona do Tabula, a to wydaje się działać bardzo dobrze do tej pory: https://github.com/chezou/tabula-py

To będzie konwertować tabelę PDF do ramki danych Pandy. Możesz także ustawić obszar w współrzędnych x, y, co jest oczywiście bardzo przydatne w przypadku nieregularnych danych.

Źródło

2017-04-22 10:38:40

Po wielu owocnych godzinach eksploracji bibliotek OCR, ramek ograniczających i algorytmów grupowania - znalazłem rozwiązanie tak proste, że sprawia, że chcesz płakać!

Mam nadzieję, że korzystasz z systemu Linux;

pdftotext -layout NAME_OF_PDF.pdf

AMAZING !!

Teraz masz ładny plik tekstowy z wszystkimi informacjami ustawieni w ładne kolumn, teraz jest trywialny do formatowania do csv etc ..

To dla takich momentach, że kocham Linux, ci faceci wymyślił ZADOWALAJĄCE rozwiązania wszystkiego i umieścił to ZA DARMO!

Źródło

2017-08-20 22:20:55 Ike

Link do dokumentów? przykłady? Jeśli biblioteka, o której wspomniałeś, jest tą, którą podejrzewam, nie wydaje się spełniać kryteriów dla 1. lub 2. –

Dzięki, to działa bardzo dobrze! :) –

OMG, zadziałało to zadziwiająco dobrze !!! – vy32

Wyodrębnij/zidentyfikuj tabele z pythona PDF

Odpowiedz

Powiązane problemy