2014-12-27 15 views
11

Pracuję nad rozpoznawaniem tekstu drukowanego przez OCR. W szczególności skupiam się na etapie przetwarzania wstępnego, aby poprawić wyniki silnika Tesseract. Osiągnąłem już dobre wyniki z progowaniem adaptacyjnym, usuwaniem szumów, korektą tekstu itp. Jednak nadal wydaje się, że Tesseract się nie udaje, gdy inny produkt komercyjny zwraca przyzwoite wyniki.Popraw wyniki OCR Tesseract z rozmytym tekstem

Użyłem następującego obrazu testowego, a tutaj są wyniki uzyskane w Tesseract 3.04 w porównaniu do dwóch komercyjnych OCR apis. Wszystkie 3 usługi zostały wyposażone w ten sam obraz binarny, który zawiera nieco lekko zamazany tekst.

Text image used to compared the 3 OCR products

Tesserakt

Careers in Technology Consulting 

Networking Lunch 
21 m 2014, 11:00 - 14:30 

Definingthecorporatellstmtegy, Wammmwdngdeal, creating 
uniquebwinessisighnwilgbigdam-doesflismflxemmyouafioy? 

Findoutmoreabanhowitfeektomkasatedlflogymbyjoiningour 

for further mm please visit mAeloittexom/weers 

ABBYY Fine Reader Online

Careers in Technology Consulting 
Networking Lunch 
21 November 2014,1140-14:30 
Defining the corporate IT strategy, planning a multHnKon <Mar outsourcing deal, creating unique business insights using big data-doesthis sound Ifce something you enjoy? 
Find out more about hour it feels to work as a technology consultant by joining our exclusive networking lunch, 
For further information please visit wrwMuleloittexom/carcert 

Online OCR

Careers in Technology Consulting Networking Lunch 21 November 2014, 11;00 —14:30 
Defining the corporate IT strategy, planning a muiti-indlimi dollar outsourcing deal, creating unique business insights using big data—does this sound like something you enjoy? 
Find out more about how it feels to work as a tedmology consultant by joining our exclusive networking lunch, 
For further information' please visit wwwdeloitte,com/careers 

Teraz zastanawiam się, czy duża różnica między Tesseract i pozostałymi dwoma produktami wynika z odmiennego silnika (na pewno ABBYY używa własnego silnika, nie ma pewności co do usługi OCR Web Service) lub są pewne inne kroki przetwarzania wstępnego, które można zrobić przed uruchomieniem Tesseract. Masz jakieś sugestie?

+0

Co powiesz na sprawdzenie postu i zaakceptowanie odpowiedzi? – Claudio

+0

Co powiesz na sprawdzenie postu i zaakceptowanie odpowiedzi? – Claudio

Odpowiedz

2

Oto propozycja "magicznego" przetwarzania wstępnego OCR. Aby wyjaśnić zasadę proponowanego przebiegu wyprzedzającego pomysł, rozważmy fragment z tekstowym obrazem, na którym wszystkie badane OCRs failed:

original image

i stosuje się do niego jakiś „przerób-Mądrość” . Po pierwsze zwykle obcinanie:

thresholded image

i wtedy jakiś „magiczny” strzelając linii pionowych elementów słownych poprzez wykrywanie max. 2 pixel wysokie „bary” i ich cięcia przy ich krawędzi oraz cięcia słowo-element w dół do jego dolnej linii:

after extracting "i"s

Teraz przełączanie z linii strzelania przez słowo-elementów w tym obrazie z pionowej na te poziome w celu wykrycia bardzo szerokie „bary” i wyciąć je pionowo w połowie ich szerokości:

after splitting grown-together characters

To powinno pomóc każdemu OCR-silnik, aby zapewnić lepsze wyniki w tym konkretnym obrazie. Mogę sobie wyobrazić, że niektóre komercyjne silniki OCR wykorzystują to podejście, które jest w stanie zapewnić lepsze rozpoznanie niż te testowane.

W tym kontekście chciałbym wspomnieć o innych darmowych silnikach OCR dostępnych w repozytoriach Ubuntu (porównywalnych z tesseract). Testując je względem siebie, możesz zastanawiać się jeszcze bardziej, jak to jest, że dają różne wyniki, a następnie zajrzeć do ich kodu źródłowego, aby wiedzieć :) i wywnioskować z tego doświadczenia coś na temat komercyjnych.

sudo apt-get install cuneiform gocr ocrad 
Powiązane problemy