2011-01-19 13 views

Odpowiedz

1

Spróbuj uruchomić "Preflight ..." w Acrobat i wybierając PDF Analysis -> List page objects, grouped by type of object.

Po zlokalizowaniu obiektów tekstowych na liście wyników zauważysz, że istnieje wartość pozycji (w punktach) w sekcji Text Properties -> * Font.

+0

Czy można znaleźć pozycję x, y i wysokość, szerokość każdego słowa? – raki

+0

@raki: Tam, gdzie jest pozycja, rozmiar jest tuż poniżej, ale to jest tylko dla bloku tekstowego, którym może być dowolny dowolny tekst. Aby uzyskać indywidualne rozmiary słów, należy obliczyć metryki czcionek. Jaki jest cel tego, co robisz, może być lepsze podejście. – Orbling

4

Docotic.Pdf Library może to zrobić. Patrz C# próbki poniżej:

using (PdfDocument doc = new PdfDocument("your_pdf.pdf", "password_if_need")) 
{ 
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData()) 
     Console.WriteLine(textData.Position + " " + textData.Text); 
} 
1

TET, Toolkit ekstrakcji tekstu z rodziny produktów pdflib może to zrobić. TET ma interfejs wiersza poleceń i jest to najpotężniejszy ze wszystkich dostępnych narzędzi do ekstrakcji tekstu. (Może nawet obsługiwać ligatur ...)

Geometria
TET zapewnia precyzyjne dane dotyczące tekstu, takich jak miejsce na stronie, szerokościami glifów i kierunku tekstu. Określone obszary na stronie można wykluczyć lub włączyć do ekstrakcji tekstu, np. zignorować nagłówki i stopki lub marginesy.

Powiązane problemy