2012-09-05 13 views
10

Korzystanie z metody GetHOCRText (0) w tesseract Jestem w stanie pobrać tekst w html i prezentując HTML w webview jestem w stanie uzyskać tekst, ale pozycję tekstu na obrazie różni się od wyniku. Każdy pomysł jest bardzo pomocny.uzyskać dokładną pozycję tekstu z obrazu w tesseract

tesseract->SetInputName("word"); 
tesseract->SetOutputName("xyz"); 
tesseract->Recognize(NULL); 


char *utf8Text=tesseract->GetHOCRText(0); 

This the image i'm using for tesseract

i obrazu wyjściowego enter image description here

+0

Czy odniosłeś jakiś sukces z rozpoznawaniem pozycji? –

Odpowiedz

1

GetBoxText() sposób powraca dokładnie położenia każdej postaci w tablicy.

char *boxtext = _tesseract->GetBoxText(0); 
NSString* aBoxText = [NSString stringWithUTF8String:boxtext]; 
+0

Jak to zrobić w Swift?! – Husam

1

Jeśli masz wyjście hocr, powinieneś mieć tag dla każdego słowa. Tagi te powinny mieć class = "ocrx_word" i name = "bbox x1 y1 x2 y2", gdzie x i y są lewym górnym i prawym dolnym rogiem obwiedni wokół słowa. Nie sądzę, aby można było automatycznie użyć tych informacji do sformatowania dokumentu tekstowego - wymagałoby to różnic w tłumaczeniu pikseli na liczbę kart/spacji. Ale powinieneś być w stanie renderować tekst w danej lokalizacji.

Powiązane problemy