Zgodnie z tą witryną http://www.searchable-pdf.com/content.php?lang=en&c=61 plik PDF można przeszukiwać po dodaniu warstwy tekstowej.Warstwa PDF i tekst
Szukałem specyfikacji technicznej pliku PDF. Myślę, że tekst można zapisać na dwa sposoby w pliku PDF: a) jako warstwę tekstową nad warstwą obrazu (jak opisano na powyższej stronie) b) podczas tworzenia pliku PDF z dokumentu programu Word (z tekstem), nie myśl, że Word będzie przechowywać cały tekst w warstwie tekstowej. Myślę, że zapisze to w warstwie obrazu? Dobrze?
Od wersji PDF 1.4 dodano XMP (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform). Ale czym jest XMP? Czy jest to "warstwa tekstowa", o której mówiłem powyżej?
Jeśli skaner wykonuje OCR na obrazie, czy zapisuje tekst w "warstwie tekstowej"? Lub pole "XMP"? Może to być tylko wtedy, gdy plik PDF ma wersję 1.4?
Jak wykryć, czy plik PDF zawiera już dane tekstowe? Na przykład: PDF A został zeskanowany przy pomocy OCR, a PDF B nie. Skąd mam wiedzieć, że PDF B powinien zostać wysłany do osobnego silnika OCR?
Zwykle po OCR tekst jest dodawany w "niewidocznym" trybie renderowania tekstu do * normalnej * zawartości pliku PDF (nie jest to dodatkowa * warstwa *, która jest niewidoczna - co jest również techniczną możliwością w PDF ; poszukaj * Treść opcjonalna * w specyfikacji PDF).---- Jednak w rzeczywistych plikach PDF (zarówno "zeskanowanych", jak i "normalnych" plikach PDF) często można znaleźć tekst i skopiować go - ale po wklejeniu gobbledigook. Lub jeśli użyjesz 'pdftotext' na takim pliku ... Jeśli tak, to jest to problem z * kodowaniem * użytej czcionki .... –