Generalnie nie ma się możliwości wiarygodnego rozróżnienia tekstu "w tle" i "prawdziwego". Tekst jest narysowany gdzieś na stronie w pewnym porządku, a to, co jest pierwszym planem, tłem, normalnym tekstem, ..., jest kwestią ludzkiej percepcji i może nie być w ogóle odzwierciedlone w strukturze strumienia treści PDF.
Możesz wypróbować wykształconą zgadywankę, np. zakładając, że "prawdziwy" tekst jest w mocnych kolorach, podczas gdy tekst tła jest w jaśniejszych kolorach, lub "prawdziwy" tekst jest ułożony w poziome linie, podczas gdy tekst tła jest często bardziej przekątny itp. Ale to jest domysł, w końcu nie można polegać na pewnie.
Z drugiej strony, w przypadku oznaczonych plików PDF istnieje ryzyko, znak wodny może zostać oznaczony jako dane artefaktu.
PS Właśnie widziałem, że ponownie udostępniłeś swój plik. W przypadku twojego dokumentu heurystyki, o których wspomniałem, będą działały, tekst tła jest szarawy i drukowany po przekątnej.
Podczas skanowania należy śledzić kolor wypełnienia i/lub macierze transformacji. Gdy tylko skaner znajdzie tekst, wiadomo, czy jest to tło czy plan pierwszy w oparciu o bieżącą wartość koloru i/lub macierzy.
Pamiętaj jednak, że nie jest to łatwe ze wszystkimi dokumentami.
Niestety nie mogę pobrać pliku PDF, naciskając przycisk na stronie usługi udostępniania plików, ale strona tylko się odświeża. Mimo to, ogólnie rzecz biorąc, nie masz szansy na rozróżnienie między tekstem "tła" i "prawdziwym". W przypadku * oznaczonych * plików PDF możesz mieć szansę, park wodny może zostać oznaczony jako dane artefaktu. – mkl
@mkl: proszę zamienić swój komentarz w prawdziwą odpowiedź, aby uzyskać moją wiadomość. :-) –
@mkl Przepraszamy, udostępnimy plik ponownie. – Swaroop