2012-12-10 15 views
5

Czy istnieje sposób na wydobycie zawartości pliku pdf z bash? (Mam duży folder artykułów naukowych, które niestety mają takie etykiety jak "1010.3423.pdf". Chciałbym napisać skrypt bash, aby nazwać je bardziej rozsądnie, co oznacza, powiedzmy, użycie kilku pierwszych wierszy.)Czy istnieje sposób na wydobycie zawartości pliku pdf z bash?

+0

możliwy duplikat [w jaki sposób wyodrębnić sformatowaną treść z pliku PDF] (http://stackoverflow.com/questions/2196621/how-to-extract-formatted-text-content-from-pdf) –

Odpowiedz

3

Istnieje pdftotext, który może pomóc w uzyskaniu tytułu i autorów z pliku pdf. Możesz następnie użyć go do google lub samodzielnie wygenerować nazwę pliku.

1

pdf2xml dostarczy Ci bardziej szczegółowych informacji, szukałem takiego narzędzia w zeszłym roku, a wśród wszystkich, myślę, że pdf2xml jest najlepszy.

Powiązane problemy