wiem, że jest to stara sprawa, ale ktoś mógłby to potrzebne
„oczywiste” Introduction:
Pliki PDF są strumień grafiki obiekt (na przykład linii) i tekstu. Gdy plik PDF jest renderowany, ludzkie oko rozumie, że istnieją tabele z powodu linii i tekstu między nimi.
Rozwiązanie (mój)
Począwszy od czytnika PDF (iTextSharp) należy: 1.
czytać wiersze (oby tylko pionowych i poziomych linii);
2. Dołącz linie (linia tabeli może składać się z kilku linii, na przykład jednej na komórkę);
3. zrozumieć, gdzie są tabele (czasami opierając się na pewnych potrzebach);
4.opcjonalnie znajdź tekst poza tabelami (lepiej zachować cały tekst) i wstaw go w akapitach;
5. Wstaw tekst wewnątrz komórek tabeli
Jeśli potrzebujesz czegoś już napisany, aby rozpocząć od (praca dla moich plików PDF) można znaleźć tu coś https://github.com/bubibubi/ExtractTablesFromPdf
Wykorzystuje wersję GPL przez iTextSharp.
To może być lepsze dopasowanie w Stackoverflow. –
Wiesz, że pliki PDF są przejrzystym tekstem i możesz sparsować te informacje? – CrazyDart