Piszę aplikację do skanowania numerów z obrazu.Tesseract myli dwa numery
Liczby używają czcionki OCR-B i mogą również zawierać znaki +
i >
.
To jest moje źródło:
Skany wykorzystujące tesseract nie były bardzo dobre, nawet gdy ograniczenie zestaw znaków do wymienionych znaków. Ponieważ nie znalazłem żadnych plików szkoleniowych OCRB dla Tesseract, postanowiłem sam je trenować.
stworzyłem this training image i zrobił z niego plik skrzynki. Plik skrzynki jest prawidłowy, wszystkie litery są poprawnie dopasowane.
Potem zrobiłem wszystkie kroki described here tworzyć inne niezbędne pliki.
Korzystając z nowo wyszkolonego zestawu tessdata OCR-B, uzyskuję całkiem dobre wyniki na obrazie źródłowym, z jednym małym błędem: Wszystkie 1
s są mylone z 8
s i na odwrót. Polecenie używane do przetwarzania obrazu był
$ tesseract esr2c.tif ocrb-esr2c -l ocrb
i wyjście na obrazie źródłowym był
0800000001456> 8 00000195731208 8 01050008 023+ 08 0301226> 20
Jeśli zamienić wszystkie 1
s i porównać go z obrazem źródłowym, wynik będzie poprawny (z wyjątkiem dwóch ostatnich liter, które mogę zignorować).
Jak to się mogło stać? Czy popełniłem jakiś błąd w procesie szkolenia? Jak mogę to naprawić?
nie ma wpływu bezpieczeństwa na publikowanie tych danych tutaj? –
@andrew not really. tylko stary, nieważny rachunek bez żadnych danych osobowych w referencyjnym id. –
@DaniloBargen: Jeśli to możliwe, czy możesz udostępnić dane treningowe dla czcionki OCRB? –