2012-07-10 18 views
7

Zgodnie z tą witryną http://www.searchable-pdf.com/content.php?lang=en&c=61 plik PDF można przeszukiwać po dodaniu warstwy tekstowej.Warstwa PDF i tekst

Szukałem specyfikacji technicznej pliku PDF. Myślę, że tekst można zapisać na dwa sposoby w pliku PDF: a) jako warstwę tekstową nad warstwą obrazu (jak opisano na powyższej stronie) b) podczas tworzenia pliku PDF z dokumentu programu Word (z tekstem), nie myśl, że Word będzie przechowywać cały tekst w warstwie tekstowej. Myślę, że zapisze to w warstwie obrazu? Dobrze?

Od wersji PDF 1.4 dodano XMP (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform). Ale czym jest XMP? Czy jest to "warstwa tekstowa", o której mówiłem powyżej?

Jeśli skaner wykonuje OCR na obrazie, czy zapisuje tekst w "warstwie tekstowej"? Lub pole "XMP"? Może to być tylko wtedy, gdy plik PDF ma wersję 1.4?

Jak wykryć, czy plik PDF zawiera już dane tekstowe? Na przykład: PDF A został zeskanowany przy pomocy OCR, a PDF B nie. Skąd mam wiedzieć, że PDF B powinien zostać wysłany do osobnego silnika OCR?

+0

Zwykle po OCR tekst jest dodawany w "niewidocznym" trybie renderowania tekstu do * normalnej * zawartości pliku PDF (nie jest to dodatkowa * warstwa *, która jest niewidoczna - co jest również techniczną możliwością w PDF ; poszukaj * Treść opcjonalna * w specyfikacji PDF).---- Jednak w rzeczywistych plikach PDF (zarówno "zeskanowanych", jak i "normalnych" plikach PDF) często można znaleźć tekst i skopiować go - ale po wklejeniu gobbledigook. Lub jeśli użyjesz 'pdftotext' na takim pliku ... Jeśli tak, to jest to problem z * kodowaniem * użytej czcionki .... –

Odpowiedz

7

W specyfikacji PDF nie ma wzmianki o "warstwie tekstowej". Zwykle istnieje tylko jeden sposób na "przechowywanie" tekstu: za pomocą tekstu pokazującego operatorów. Operatory te narysują tekst w określonej lokalizacji, używając określonego koloru, czcionki, rozmiaru czcionki i trybu renderowania tekstu. Istnieje kilka trybów renderowania tekstu. W celu udzielenia odpowiedzi na twoje pytanie tekst może być widoczny lub niewidoczny.

Skaner, który wykonuje OCR, renderuje obraz rastrowy i tekst do dokumentu PDF. Tekst jest renderowany za pomocą trybu niewidocznego renderowania tekstu. Powoduje to, że możesz zaznaczyć tekst za pomocą myszy (podświetlony obszar zostanie wyświetlony w oczekiwanej lokalizacji na górze obrazu) i możesz wyszukać tekst. Ponownie wynik wyszukiwania zostanie wyświetlony we właściwej lokalizacji.

Co się stanie, gdy wygenerujesz plik PDF z dokumentu programu Word, zależy od oprogramowania używanego do konwersji. Według mojej wiedzy, te konwertery nie generują obrazu, ale generują widoczny tekst.

XMP to metadane w przeciwieństwie do danych wizualnych.

Na koniec, w odniesieniu do pytania dotyczącego wykrycia, czy plik PDF zawiera dane tekstowe, znajduje się tutaj similar question.

+0

Dzięki, Frank. Wyczyść odpowiedzi! –

+0

Kilka innych pytań: * czy każda wersja (http://pl.wikipedia.org/wiki/Portable_Document_Format#Adobe.27s_wersje) pliku PDF zawiera tekst? Czy istnieje format określający sposób przechowywania tekstu?
* jeśli masz plik PDF, który został rozpoznany przez OCR, ale ponownie "OCR" ponownie używa innego mechanizmu OCR, co stanie się z poprzednim tekstem OCR? –

+0

@JochenHebbrecht: Spójrz na moją odpowiedź. Zawiera również link do specyfikacji. ** Oczywiście ** w specyfikacji są dokładne zasady dotyczące przechowywania tekstów (ale nie znajdziesz ich w Wikipedii). –

3

Podniosłem decyzję Franka Rema, ponieważ jest ono "kompletne".

Dodam kilka szczegółów jednakże:

  1. z „niewidzialność” tekst pochodzi z Tr, tryb renderowania tekst 3 operatora w formacie PDF: „Ani wypełnić ani udar tekst”(PDF-1.7 spec, Chapter 9.3.6).
  2. Zapraszamy do obejrzenia tej superuser. Pytanie: "PDF has an extra blank in all words after running through Ghostscript" i moje odpowiedzi tam, aby dowiedzieć się kilka rzeczy o szczegółach technicznych (ESP spojrzeć na jeden z nagłówkiem „Jak możemy uczynić niewidzialnym tekst widoczny?”).
+0

dzięki, link w punkcie 2) sprawia, że ​​jest to dla mnie bardzo jasne! Jesteś profesjonalistą! :-) –