Jak znaleźć x, y lokalizację tekstu w pdf

Czy istnieje narzędzie do znalezienia lokalizacji X-Y na treści tekstowej w pliku PDF?Jak znaleźć x, y lokalizację tekstu w pdf

Źródło

2011-01-19 raki

Spróbuj uruchomić "Preflight ..." w Acrobat i wybierając PDF Analysis -> List page objects, grouped by type of object.

Po zlokalizowaniu obiektów tekstowych na liście wyników zauważysz, że istnieje wartość pozycji (w punktach) w sekcji Text Properties -> * Font.

Źródło

2011-01-19 20:32:41 Orbling

Czy można znaleźć pozycję x, y i wysokość, szerokość każdego słowa? – raki

@raki: Tam, gdzie jest pozycja, rozmiar jest tuż poniżej, ale to jest tylko dla bloku tekstowego, którym może być dowolny dowolny tekst. Aby uzyskać indywidualne rozmiary słów, należy obliczyć metryki czcionek. Jaki jest cel tego, co robisz, może być lepsze podejście. – Orbling

Docotic.Pdf Library może to zrobić. Patrz C# próbki poniżej:

using (PdfDocument doc = new PdfDocument("your_pdf.pdf", "password_if_need")) 
{ 
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData()) 
     Console.WriteLine(textData.Position + " " + textData.Text); 
}

Źródło

2011-01-20 16:46:28

TET, Toolkit ekstrakcji tekstu z rodziny produktów pdflib może to zrobić. TET ma interfejs wiersza poleceń i jest to najpotężniejszy ze wszystkich dostępnych narzędzi do ekstrakcji tekstu. (Może nawet obsługiwać ligatur ...)

Geometria
TET zapewnia precyzyjne dane dotyczące tekstu, takich jak miejsce na stronie, szerokościami glifów i kierunku tekstu. Określone obszary na stronie można wykluczyć lub włączyć do ekstrakcji tekstu, np. zignorować nagłówki i stopki lub marginesy.

Źródło

2011-01-23 02:16:55

Jak znaleźć x, y lokalizację tekstu w pdf

Odpowiedz

Powiązane problemy