2011-07-06 13 views
5

Tworzę usługę, która monitoruje folder w poszukiwaniu zeskanowanych plików. Gdy plik już istnieje, usługa podnosi i przekształca go w czytelny plik PDF. W tym procesie usługa szuka również kodu kreskowego. Następnie tekst zostaje wyodrębniony, a plik z tekstem zapisany w bazie danych naszego oprogramowania. Lokalizacja jest oparta na kodzie kreskowym.Howto: Popraw jakość pliku PDF przed OCR za pomocą C#

Teraz dla OCR używamy SDK Atalasoft (http://www.atalasoft.com/). W zestawie SDK znajduje się również czytnik kodów kreskowych.

Ale przekonwertowany tekst nadal zawiera błędy. (Przeprowadziłem kilka testów z innymi programami OCR, ale Atalasoft wyszedł miło.) Szukam jakiegoś oprogramowania (SDK-kit), które pozwala mi poprawić jakość PDF do celów OCR.

Testowałem Kofax VRS Elite (http://www.kofax.com/vrs-virtualrescan/). Szukam czegoś podobnego, ale można to zaimplementować w usłudze za pomocą zestawu SDK.

Ktoś, kto zrobił to wcześniej lub miał podobne problemy? thx z góry!

Odpowiedz

2

Możesz spróbować całkowicie zastosować inną ścieżkę:
Sprawdź, czy możesz skonfigurować skaner do skanowania bezpośrednio do pliku PDF i wykonywania OCR w locie. Skanery Lexmark mogą to zrobić. Spowoduje to utworzenie plików PDF z wybieralnym i przeszukiwalnym tekstem. To z kolei można wyodrębnić za pomocą biblioteki do czytania PDF.

Możesz również rzucić okiem na http://www.abbyy.com/ i sprawdzić, czy uzyskasz lepsze wyniki.

Jeśli nie są to dobre opcje, możesz podzielić problem w sposób systematyczny:
1. Czy jakość obrazu zeskanowanych obrazów jest problemem? Jeśli tak, to najpierw trzeba to naprawić. Rozwiązanie OCR może mieć wpływ na rozdzielczość, kontrast i kolor.
2. Czy jest to oprogramowanie OCR? Zrób bardzo czytelny dokument i sprawdź, czy oprogramowanie OCR popełnia błędy. Jeśli tak, to wiesz, że musisz znaleźć lepsze oprogramowanie OCR.
3. Jeśli jakość twojego dokumentu jest przyzwoita, a twoje oprogramowanie OCR ma wysoki wskaźnik sukcesu w odszyfrowaniu czytelnego dokumentu, możesz zajrzeć do wyjątków, które nie działają, i podejść do nich osobno dla każdego przypadku.

Jeśli przyczyną problemu są smugi i obrazy tła na dokumentach, warto przyjrzeć się sposobom uniknięcia tego lub wyczyścić to za pomocą oprogramowania do przetwarzania obrazu, które udostępnia interfejs API.

+1

Witam, proszę o odpowiedź. Ale opcja zakupu innego skanera nie jest dostępna. I przeprowadziłem kilka testów z abbyy, jakość jest porównywalna z OCR od atalasoft. Anny inne sugestie? –

Powiązane problemy