W mojej pracy czasami muszę pobrać wydrukowany kod źródłowy i ręcznie wpisać kod źródłowy w edytorze tekstu. Nie pytaj czemu.Potrzebujesz dobrego OCR do wydrukowania listy kodów źródłowych, wszelkich pomysłów?
Oczywiście wpisanie go zajmuje długi czas i zawsze dodatkowy czas na debugowanie błędów pisowni (oops przegapił tam znak "$").
postanowiłem spróbować rozwiązania OCR, takich jak:
- Microsoft Document Imaging - ma wbudowany OCR
- Wynik: Nieodebrane wszystkich wiodących spacje, nieodebranych wszystkie podkreślenia interpretować wielu z interpunkcją niepoprawnie.
- Wniosek: wolniej niż ręcznie wpisywać kod.
- Różne Internecie web aplikacje OCR
- Wynik: podobne lub gorsze niż Microsoft Document Imaging
- Wniosek: Wolniej niż ręcznie wpisując kod.
Czuję kodu źródłowego byłoby bardzo łatwe do OCR dana czcionka jest sans serif i monospace.
Czy ktoś z was znalazł dobre rozwiązanie OCR, które działa dobrze na kodzie źródłowym?
Może po prostu potrzebuję lepszego rozwiązania OCR (niekoniecznie kodu źródłowego)?
Próbowałem tesseract. Nie udało się, gdy po raz pierwszy go pobrałem. Internetowy plik readme określa, że nie zawiera żadnych danych szkoleniowych. Pobrałem dane treningowe z języka angielskiego ze strony internetowej i rozpakowałem je na podreser tessdata. ALE to wciąż narzekał na "nie mógł znaleźć eng.unicharset". Jak ja to robię? –
Zobacz co mam na myśli? Tesseract jest bezpłatny tylko wtedy, gdy twój czas nic nie kosztuje. Ale możesz pisać pytania w grupie użytkowników tesseract. Są przyjazne, a Twój wkład ułatwi następnym osobom ustawienie tej bestii. –
@Aaron Digulla, proszę mi udostępnić kilka bibliotek OCR w zakresie od $ 150 do $ 500, –