O ile mi wiadomo, Tesseract 3.x ma 6 angielskich (popraw mnie, jeśli się mylę) czcionek. Muszę wyszkolić Tesseract na więcej 5 typów czcionek. Potrzebuję tylko wielkich liter i cyfr (bez znaków specjalnych lub symboli)."Dodawanie" nowych czcionek do Tesseract eng.traineddata
Śledziłem różne procesy na przykład: Adding New Fonts to Tesseract 3 OCR Engine
a także używanych narzędzi do automatyzacji procesu jak Serak Tesseract Trainer for Tesseract 3.02
Do generowania plików skrzynki użyłem QT Box Editor
Po zastosowaniu powyższych narzędzi mam eng.traineddata
plik. Wszystkie samouczki mówią, żebym dodał ten plik eng.traineddata
do folderu Tesseract-OCR\tessdata
, ale spowoduje to zastąpienie oryginalnego pliku eng.traineddata
. Czy po wykonaniu tej czynności stracę domyślne czcionki, które pochodzą z Tesseract 3.x?
Jak mogę dodać nowe czcionki? Nadal nie jest dla mnie jasne. Mam nadzieję, że ktoś mi w tym pomoże. Dzięki.
gdzie mogę określić opcję językową -l eng + eng1? – manu
Może to zabrzmieć zbyt leniwie, ale czy istnieje sposób na udostępnienie pliku czcionki jako wejścia (na przykład na stronę), a wyszkolona 'tessdata' jest dostarczana jako wynik? – tipycalFlow
@tipycalFlow [jTessBoxEditor] (http://vietocr.sourceforge.net/training.html) ma generator TIFF/Box. Możesz podać plik czcionki i otrzymać pudełko z prawidłowymi wartościami. Z [Serak Tesseract Trainer] (http://code.google.com/p/serak-tesseract-trainer/) możesz zrobić resztę. –