2015-04-09 12 views
6

Próbuję wyodrębnić tekst wsadowy z plików PDF. Wypróbowałem wiele bibliotek i Adobe Reader wydaje mi się najdokładniejszym narzędziem do ekstrakcji tekstu.Jak programowo użyć AcroTextExtractor.exe?

Zauważyłem plik AcroTextExtractor.exe w folderze, w którym zainstalowany jest Adobe Reader. Sname wydaje się obiecujący, a wyświetlenie go w Google pokazuje, że ten plik jest częścią procedury konwersji PDF na tekst.

Jak wywołać ten plik z wiersza poleceń, aby wyodrębnić tekst?

Odpowiedz

1

Chciałbym użyć tego również w tym samym scenariuszu.

Zrobiłem eksperyment, aby zobaczyć, czy mogę zbadać wiersza polecenia, które można zobaczyć na uruchomienie AcroTextExtractor.exe.

Zrobiłem duży plik PDF i otworzyłem go w Adobe Acrobat Reader DC wersja 2018.009.20050. Następnie zapisałem go jako tekst (Plik | Zapisz jako inny | Tekst) i podczas gdy Reader generował plik tekstowy (z powodzeniem), sprawdziłem wszystkie uruchomione procesy w Menedżerze zadań, sysinternals Process Explorer i WMI w Powershell.

Niestety nie mogłem znaleźć procesu uruchomionego ze ścieżką, w tym AcroTextExtractor.exe; w ten sposób nie mogłem pobrać wiersza poleceń.

To może być czerwony śledź.

+0

Próbowałem już tego. Wygląda na to, że plik wykonywalny nie jest używany z GUI, w rzeczywistości, jeśli je usuniesz, możesz nadal zapisywać jako tekst z GUI bez żadnego błędu. –