Czy istnieje sposób na wydobycie zawartości pliku pdf z bash? (Mam duży folder artykułów naukowych, które niestety mają takie etykiety jak "1010.3423.pdf". Chciałbym napisać skrypt bash, aby nazwać je bardziej rozsądnie, co oznacza, powiedzmy, użycie kilku pierwszych wierszy.)Czy istnieje sposób na wydobycie zawartości pliku pdf z bash?
5
A
Odpowiedz
3
Istnieje pdftotext, który może pomóc w uzyskaniu tytułu i autorów z pliku pdf. Możesz następnie użyć go do google lub samodzielnie wygenerować nazwę pliku.
3
Spróbuj pdftotext, aby wyodrębnić tekst? http://en.wikipedia.org/wiki/Pdftotext
1
pdf2xml dostarczy Ci bardziej szczegółowych informacji, szukałem takiego narzędzia w zeszłym roku, a wśród wszystkich, myślę, że pdf2xml jest najlepszy.
Powiązane problemy
- 1. Czy istnieje lepszy sposób zapisu pełnej zawartości pliku do OutputStream?
- 2. Czy istnieje sposób na pobranie nazwy pliku z pliku `FILE *`?
- 3. Sposób opisywania pliku PDF na iPadzie
- 4. Czy istnieje prosty sposób na wyczyszczenie zawartości elementu SVG?
- 5. Najlepszy sposób na wydobycie obiektu strefy czasowej z ciągu?
- 6. Pętla na pustej zawartości katalogu w Bash
- 7. Czy istnieje sposób na wymuszenie formatu pliku README.txt na github?
- 8. Czy istnieje sposób dodawania metadanych "autora" do pliku PDF utworzonego z R
- 9. Najlepszy sposób na stworzenie pliku PDF z PHP
- 10. Najlepszy sposób na wygenerowanie pliku PDF z szablonu
- 11. Czy istnieje sposób wdrażania/aktualizacji tylko statycznej zawartości do GAE?
- 12. Sposób tworzenia pliku PDF na storyboard w Xcode?
- 13. Czy istnieje sposób na wyeksportowanie obiektu ActiveRecord do pliku seeds.rb?
- 14. Czy istnieje sposób na skonfigurowanie zdalnego pliku .gitignores?
- 15. Czy istnieje sposób na zachowanie stałej pliku prywatnego w Kotlin
- 16. Czy istnieje sposób na rozszerzenie pliku w nazwie pakietu?
- 17. Wstawianie tekstu z pliku na początek innego pliku - bash
- 18. Czy istnieje lepszy sposób na konwersję z UTCTime na EpochTime?
- 19. Czy istnieje sposób automatycznego wyprowadzenia pliku requirements.txt?
- 20. porównać datę bash pliku na
- 21. Czy istnieje sposób wyświetlenia zawartości pliku cPickle lub pikle bez wczytywania Pythona w systemie Windows?
- 22. Przekierowanie zawartości pliku z Androida na komputer
- 23. Czy istnieje sposób na wyrażenie wyrażenia-cudzysłem w pliku Node.js?
- 24. Czy istnieje sposób tworzenia par klucz-wartość w skrypcie Bash?
- 25. Czy istnieje sposób ustawiania DPI pliku wyjściowego pdf przy użyciu biblioteki FPDF?
- 26. Czy istnieje sposób na przyspieszenie kompilacji WiX?
- 27. Czy istnieje zestaw testów dla plików PDF?
- 28. W Symfony, Czy istnieje sposób na tworzenie plików PDF w tym samym czasie?
- 29. haskell - parsowanie/czytanie zawartości .pdf-files
- 30. Czy istnieje sposób na załadowanie json z subdomeny?
możliwy duplikat [w jaki sposób wyodrębnić sformatowaną treść z pliku PDF] (http://stackoverflow.com/questions/2196621/how-to-extract-formatted-text-content-from-pdf) –