Tesseract 3 jest w stanie przeprowadzić analizę układu strony. Jednak nie mogłem znaleźć żadnego przykładowego kodu ani dokumentacji, jak korzystać z biblioteki do takich celów. Mam nadzieję, że ktoś tutaj może wyjaśnić, jak przeprowadzić analizę układu na obrazie i jak przeanalizować uzyskane dane.Analiza układu strony za pomocą Tesseract?
9
A
Odpowiedz
8
Tesserakt można podawać parametr trybu strony (-psm
), który może przyjmować następujące wartości:
0
= Orientacja i wykrywanie Script (OSD) tylko.1
= Automatyczna segmentacja stron z OSD.2
= automatyczna segmentacja strona, ale nie OSD lub OCR3
= Całkowicie automatyczna segmentacja strona, ale nie OSD. (Domyślnie)4
= Przyjmij pojedynczą kolumnę tekstu o różnych rozmiarach.5
= Przyjmij pojedynczy jednolity blok tekstu wyrównanego pionowo.6
= Załóż jeden jednolity blok tekstu.7
= Traktuj obraz jako pojedynczą linię tekstu.8
= Traktuj obraz jako pojedyncze słowo.9
= Traktuj obraz jako jedno słowo w kółku.10
= Traktuj obraz jako pojedynczą postać.
Przykład:
tesseract image.tif image.txt -l eng -psm 0
Jednak nie jestem pewien, że można korzystać z analizy układu w trybie autonomicznym.
5
Najpierw zainicjalizuj instancję TessBaseAPI
. Możesz użyć Init()
(jeśli chcesz wykonać dalsze rozpoznawanie tekstu) lub InitForAnalysePage()
(jeśli jesteś zainteresowany tylko w polach tekstowych).
Po drugie, ustaw obraz za pomocą SetImage()
.
Na koniec zadzwoń pod numer AnalyseLayout()
, aby uzyskać PageIterator
, która zawiera pola tekstowe.
tesseract::TessBaseAPI tessApi;
tessApi.InitForAnalysePage();
// tessApi.SetImage(...);
tesseract::PageIterator *iter = tessApi.AnalyseLayout();
// Instead of RIL_WORD you can use any other PageSegMode
while (iter->Next(tesseract::RIL_WORD)) {
int left, top, right, bottom;
iter->BoundingBox(
tesseract::RIL_WORD,
&left, &top, &right, &bottom
);
}
Powiązane problemy
- 1. Analiza czynnikowa za pomocą R
- 2. rozpoznawanie chińskiego znaku za pomocą Tesseract OCR
- 3. Analiza zrzutów rdzenia za pomocą gdb
- 4. Nie można znaleźć strony układu.
- 5. Zmiana tylko układu strony głównej w cakephp
- 6. Zmiana paneli za pomocą układu karty
- 7. Rozwiązywanie układu równań liniowych za pomocą matathotnetu?
- 8. Tesseract Wyszkolone dane
- 9. Odpowiadanie na kwerendy za pomocą Sprawdź sekcję "Analiza i analiza nazwy funkcji" w Instrukcji obsługi klienta
- 10. Niestandardowy słownik dla Tesseract
- 11. Wyszukiwanie wycieku pamięci (i analiza) za pomocą gdb
- 12. Analiza wpływu testu za pomocą TeamCity zamiast TeamBuild?
- 13. Łatwa wizualizacja i analiza sieci społecznościowej za pomocą Pythona?
- 14. Eksploracja tekstów, wyprowadzanie faktów, analiza semantyczna za pomocą .Net
- 15. Jak mogę zmienić rozmiar nagłówków stron za pomocą elastycznego układu?
- 16. Pobierz tytuł strony za pomocą Selenium WebDriver za pomocą Java
- 17. Tesseract: Określanie regionów tekstu
- 18. Używanie agility.js do układu strony i kompozycji
- 19. iOS Tesseract: złe wyniki
- 20. Obsługa odświeżania zdarzenia strony za pomocą javascript
- 21. Sprawdzanie tytułu strony za pomocą rspec
- 22. Pobierz całą zawartość strony za pomocą Selenium
- 23. Uzyskiwanie pełnego źródła strony za pomocą Javascriptu
- 24. Edycja strony pdf za pomocą pdfbox
- 25. Osadzanie strony HTML za pomocą Angular js
- 26. Zmień fragment strony podglądu za pomocą przyciskuKliknij
- 27. jak zrobić podział strony za pomocą itext
- 28. Jak wykryć odświeżanie strony za pomocą jquery?
- 29. Aktualizowanie całej strony za pomocą Ajax.ActionLink
- 30. Jak uzyskać zawartość strony za pomocą cURL?
Pytanie dotyczy "sposobu korzystania z biblioteki", a nie samodzielnego pliku wykonywalnego. –