Wyodrębnianie tytułów z plików PDF?

Chcę napisać skrypt, aby zmienić nazwę pobranych dokumentów z ich tytułami automatycznie, zastanawiam się, czy jest jakaś biblioteka lub sztuczki, z których mogę skorzystać? Wszystkie pliki PDF są generowane przez TeX i powinny mieć pewne "formalne" struktury.Wyodrębnianie tytułów z plików PDF?

Źródło

2009-05-26 ZelluX

Skąd tytuł pliki PDF? Czy te informacje muszą zostać wyodrębnione z właściwości dokumentu PDF lub z treści PDF lub czy wyodrębniłeś te informacje z innego źródła? – Rowan

Możliwy duplikat [Wyodrębnianie informacji z plików PDF z prac badawczych] (http://stackoverflow.com/questions/1813427/extracting-information- from-pdfs-of-research-papers) – Seanny123

można spróbować użyć pyPdf i this example.

na przykład:

from pyPdf import PdfFileWriter, PdfFileReader 

def get_pdf_title(pdf_file_path): 
    with open(pdf_file_path) as f: 
     pdf_reader = PdfFileReader(f) 
     return pdf_reader.getDocumentInfo().title 

title = get_pdf_title('/home/user/Desktop/my.pdf')

Źródło

2009-05-26 16:58:14 schnaader

dla mnie 'title = untitled' – ar2015

pyPdf .utils.PdfReadError: Nie znaleziono znacznika EOF – Victor

pewnie ruszy z Perl (widząc, jak to zawsze pierwszą rzeczą sięgam). Istnieje several modules for handling PDFs. Jeśli masz spójną strukturę, możesz użyć regex do zaczepienia tytułów.

Źródło

2009-05-26 16:58:14 moshen

można spróbować użyć iText z Jython

Źródło

2009-05-26 17:00:36 northpole

Zakładając te wszystkie papiery są z arXiv, można zamiast wydobyć id arXiv (Przypuszczam, że poszukiwania "arXiv:" w tekście PDF konsekwentnie ujawni identyfikator jako pierwsze trafienie).

Po uzyskaniu numeru arXiv (i zrobili pip install arxiv), można uzyskać tytuł korzystając

paper_ref = '1501.00730' 
arxiv.query(id_list=[paper_ref])[0].title

Źródło

2018-01-24 08:45:54 AndyP

Wyodrębnianie tytułów z plików PDF?

Odpowiedz

Powiązane problemy