Chcę napisać skrypt, aby zmienić nazwę pobranych dokumentów z ich tytułami automatycznie, zastanawiam się, czy jest jakaś biblioteka lub sztuczki, z których mogę skorzystać? Wszystkie pliki PDF są generowane przez TeX i powinny mieć pewne "formalne" struktury.Wyodrębnianie tytułów z plików PDF?
13
A
Odpowiedz
13
można spróbować użyć pyPdf i this example.
na przykład:
from pyPdf import PdfFileWriter, PdfFileReader
def get_pdf_title(pdf_file_path):
with open(pdf_file_path) as f:
pdf_reader = PdfFileReader(f)
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('/home/user/Desktop/my.pdf')
2
pewnie ruszy z Perl (widząc, jak to zawsze pierwszą rzeczą sięgam). Istnieje several modules for handling PDFs. Jeśli masz spójną strukturę, możesz użyć regex do zaczepienia tytułów.
2
0
Zakładając te wszystkie papiery są z arXiv, można zamiast wydobyć id arXiv (Przypuszczam, że poszukiwania "arXiv:" w tekście PDF konsekwentnie ujawni identyfikator jako pierwsze trafienie).
Po uzyskaniu numeru arXiv (i zrobili pip install arxiv
), można uzyskać tytuł korzystając
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title
Powiązane problemy
- 1. JAR - wyodrębnianie określonych plików
- 2. Tworzenie Ślimaków z tytułów?
- 3. Scalanie plików pdf z zakładkami
- 4. drukowania plików PDF z PDFSharp
- 5. Scalanie plików PDF z iTextSharp
- 6. Wyodrębnianie plików z pola załącznika w bazie danych programu Access
- 7. Wyodrębnianie tekstu z pliku PDF za pomocą PDFMiner w python?
- 8. Scalanie plików PDF
- 9. gettext: wyodrębnianie ciągów dgettext() do plików domain.po
- 10. Działki bez tytułów/etykiet w R
- 11. Wyodrębnianie nazw plików ze ścieżki MYSQL
- 12. Czytanie danych z plików PDF na R
- 13. łączenie plików pdf z ghostscript, jak dołączyć oryginalne nazwy plików?
- 14. Opóźniona aktualizacja tytułów/odświeżania tytułów w tytule "Bilet", dlaczego?
- 15. Wyodrębnianie informacji o ścieżce glifu z plików ttf
- 16. Wyodrębnianie danych z plików HTML za pomocą BeautifulSoup i Python
- 17. Wydajny sposób na wyodrębnianie plików i metadanych z Amazon S3?
- 18. wyodrębnianie danych z plików xml przy użyciu MATLAB
- 19. wyodrębnianie informacji o błędach z plików dziennika szyn
- 20. Wyodrębnianie tekstu w formacie PDF w Objective C
- 21. HTML5 do serwera plików PDF
- 22. Wyświetlanie favicon dla plików PDF
- 23. Wysyłanie plików PDF do iBooks
- 24. Dodawanie tytułów do ViewPager
- 25. Jak programowo otwierać pliki PDF w domyślnym czytniku plików PDF?
- 26. Ukrywanie znaczników tytułów na hover
- 27. Jak zmienić kolor tytułów wykresów
- 28. Eksportowanie plików PDF w Internet Explorerze
- 29. Konwersja plików PDF na HTML w PHP?
- 30. LaTeX do generowania plików PDF w produkcji
Skąd tytuł pliki PDF? Czy te informacje muszą zostać wyodrębnione z właściwości dokumentu PDF lub z treści PDF lub czy wyodrębniłeś te informacje z innego źródła? – Rowan
Możliwy duplikat [Wyodrębnianie informacji z plików PDF z prac badawczych] (http://stackoverflow.com/questions/1813427/extracting-information- from-pdfs-of-research-papers) – Seanny123