2015-06-19 7 views
5

Mam znak pdf ze znakiem wodnym na jego tle. Po rozpoczęciu skanowania w celu wyróżnienia dowolnego słowa ze znakiem wodnym lub adnotacji w tle, zostanie ono wybrane tak, jak zostanie znalezione jako pierwsze w obszarze dotykowym.
Używam CGPDFScanner do skanowania tekstu.

Moje pytanie brzmi: jak wykryć, czy zeskanowany tekst jest tekstem w tle czy prawdziwym tekstem w formacie PDF? Jak odróżnić tekst standardowy od adnotacji?iOS - Rozróżnianie tekstu tła (znaku wodnego) i tekstu rzeczywistego w pliku PDF

Dzięki.

+1

Niestety nie mogę pobrać pliku PDF, naciskając przycisk na stronie usługi udostępniania plików, ale strona tylko się odświeża. Mimo to, ogólnie rzecz biorąc, nie masz szansy na rozróżnienie między tekstem "tła" i "prawdziwym". W przypadku * oznaczonych * plików PDF możesz mieć szansę, park wodny może zostać oznaczony jako dane artefaktu. – mkl

+0

@mkl: proszę zamienić swój komentarz w prawdziwą odpowiedź, aby uzyskać moją wiadomość. :-) –

+0

@mkl Przepraszamy, udostępnimy plik ponownie. – Swaroop

Odpowiedz

3

Generalnie nie ma się możliwości wiarygodnego rozróżnienia tekstu "w tle" i "prawdziwego". Tekst jest narysowany gdzieś na stronie w pewnym porządku, a to, co jest pierwszym planem, tłem, normalnym tekstem, ..., jest kwestią ludzkiej percepcji i może nie być w ogóle odzwierciedlone w strukturze strumienia treści PDF.

Możesz wypróbować wykształconą zgadywankę, np. zakładając, że "prawdziwy" tekst jest w mocnych kolorach, podczas gdy tekst tła jest w jaśniejszych kolorach, lub "prawdziwy" tekst jest ułożony w poziome linie, podczas gdy tekst tła jest często bardziej przekątny itp. Ale to jest domysł, w końcu nie można polegać na pewnie.

Z drugiej strony, w przypadku oznaczonych plików PDF istnieje ryzyko, znak wodny może zostać oznaczony jako dane artefaktu.

PS Właśnie widziałem, że ponownie udostępniłeś swój plik. W przypadku twojego dokumentu heurystyki, o których wspomniałem, będą działały, tekst tła jest szarawy i drukowany po przekątnej.

Podczas skanowania należy śledzić kolor wypełnienia i/lub macierze transformacji. Gdy tylko skaner znajdzie tekst, wiadomo, czy jest to tło czy plan pierwszy w oparciu o bieżącą wartość koloru i/lub macierzy.

Pamiętaj jednak, że nie jest to łatwe ze wszystkimi dokumentami.

+0

Dzięki za odpowiedź :). Pomyślałem o zgadywaniu opartym na wysokości i szerokości tekstu znaku wodnego. Może to być jedna z heurystycznych praw? Podczas skanowania otrzymuję prostokąt o wielkości 1/4 strony, więc mogę zdecydować, czy pomijam na tej podstawie, prawda? Czy może pójść nie tak? – Swaroop

+0

To także inna zasada heurystyczna. Ale bądź świadomy, heurystyki są przecież zgadywaniem i raz na jakiś czas się nie powiedzie. – mkl

+0

Okay ... Wielkie dzięki za pomoc. :) – Swaroop

Powiązane problemy