Czy istnieją biblioteki open source, które obsługują identyfikację tabeli & ekstrakcji?Wyodrębnij/zidentyfikuj tabele z pythona PDF
przez to znaczy:
- zidentyfikować struktury tabeli istnieje
- klasyfikować tabeli z jego zawartością
- pobiera dane z tabeli w przydatnego formatu wyjściowego np JSON/CSV itd
ja przejrzałem podobne pytania na ten temat i okazało się, co następuje:
- PDFMiner który rozwiązuje problemu 3, ale wydaje się, że użytkownik ma obowiązek podać do PDFMiner gdzie dla każdej tabeli istnieje tabela (popraw mnie, jeśli się mylę)
- pdf-table-extract, która próbuje rozwiązać problem 1, ale zgodnie z listą To-Do, nie może obecnie zidentyfikować tabel oddzielonych białymi znakami. To jest problem, ponieważ wszystkie tabele w moich plikach PDF są oddzielone białymi znakami!
Obecnie myślę, że musiałbym poświęcić wiele czasu na opracowanie rozwiązania uczenia maszynowego w celu identyfikacji struktur tabeli z plików PDF. Dlatego wszelkie alternatywne podejścia byłyby więcej niż mile widziane!
Jeśli możesz używać także narzędzi spoza Pythona, możesz rzucić okiem na [tabula] (http://tabula.technology/). – mkl
dzięki. Na pewno się tym zajmiemy. Jestem chętny do znalezienia rozwiązania w python, choć ze względu na szybkość, w której można zapisać Pythona –