2012-04-20 11 views
5

Szukam przetwarzania kilku skanowanych pocztówek odpowiedzi, które mają odręcznie informacje kontaktowe na ich temat (np. Nazwisko, adres, telefon, adres e-mail itp.).Czy istnieje przydatna biblioteka/program rozpoznawania pisma ręcznego?

Jestem ciekawy, czy istnieje realistyczna biblioteka z otwartym kodem źródłowym lub oprogramowanie do tego (najlepiej Java lub R). Przyglądanie się wielu informacjom pochodzi z 2009 lub wcześniej i nie jest zbyt zachęcające.

Językiem jest angielski.

Wszelkie sugestie?

EDIT: Szukałem na stronie OCRopus ale najnowsza wersja jest od maja 2009. Ktoś ma jakieś doświadczenia z tym czy istnieje nowsza wersja?

+0

żadnego konkretnego języka? –

+1

Naprawdę nie dostaję tagowania w tym pytaniu ... – talnicolas

+0

@DanW: Java lub R będą idealne. Pismo jest w języku angielskim. – screechOwl

Odpowiedz

2

Na początek o ile mi wiadomo, nie ma natywnych opensource'owych pakietów SDK Java OCR. Istnieją interfejsy API Java, które zawijają wywołania dla natywnych interfejsów, tesjeract (http://code.google.com/p/tesjeract/) lub Tess4J (http://tess4j.sf.net/).

Następnie należy określić, czy szukasz odręcznego, czy odręcznego tekstu. Jeśli potrzebujesz rozpoznawania tekstu pisma ręcznego - nie wierzę, że będziesz w stanie rozwiązać swoje zadania z powodów wymienionych w innych odpowiedziach.

Jednakże, jeśli trzeba (ICR, który stoi za ICR) dla handprinted tekstu (raczej wyraźne litery stosowane w badaniach, formularze, itp) nie może być rozwiązaniem. Chociaż wierzę, że tesseract (mimo że uważana za najlepszą spośród silników opensource) nie zrobi dla ciebie zadanie tutaj można szukać dokładniejszych SDK.

Może to pytanie pomoże: Handwritten scanned Doc to .txt File?

3

Być może zechcesz spojrzeć na http://code.google.com/p/ocropus/, który jest systemem OCR o otwartym kodzie źródłowym.

Ale wydaje się być napisane w C++ i Pythonie.

* UPDATE: *

Ponieważ jeden z projektów badawczych jest ręcznie analizator Spodziewam może pomóc.

Silnik OCRopus opiera się na dwóch projektach badawczych: a wysokiej jakości rozpoznawania pisma ręcznego opracowanej w połowie lat 90-tych i wdrożonych przez US Census Bureau, i nowych wysokowydajny układ metod analitycznych.

A jeśli spojrzeć na http://code.google.com/p/ocropus/source/browse/ pliki źródłowe zostały zaktualizowane od 10/2011 (jeden z trzech było od 3/2012), więc wydaje się być nadal w fazie rozwoju.

+0

OCRopus NIE służy do rozpoznawania pisma ręcznego – Tomato

3

nie jestem świadomy o jakiejkolwiek pracy biblioteki rozpoznawania pisma ręcznego open source, niezależnie Jestem w przestrzeni OCR bo już jakiś czas. Zazwyczaj pismo jest trudniejsze niż OCR i powiedziałbym, że nie ma nawet przyzwoitego rozwiązania komercyjnego. Wszystkie istniejące mają swoje własne problemy i mogą działać tylko w bardzo wąskich aplikacjach, takich jak ograniczony słownik, tekst jest dobrze napisany, itp. Jeśli nadal jesteś zainteresowany, to polecam sprawdzenie technologii francuskiej firmy I2IA

Powiązane problemy