Poszukuję metody klasyfikacji zeskanowanych stron, które składają się w dużej mierze z tekstu.Klasyfikacja obrazu w pytonie
Oto szczegóły dotyczące mojego problemu. Mam duży zbiór zeskanowanych dokumentów i muszę wykryć obecność pewnych rodzajów stron w tych dokumentach. Planuję "rozłożyć" dokumenty na ich strony składowe (każda z nich jest indywidualnym obrazem) i zaklasyfikować każdy z tych obrazów jako "A" lub "B". Ale nie mogę wymyślić najlepszego sposobu na zrobienie tego.
Więcej szczegółów:
- mam liczne przykłady "A" i "B" obrazów (stron), więc mogę zrobić nadzorowanego uczenia się.
- Nie jest dla mnie jasne, jak najlepiej wyodrębnić elementy z tych obrazów do treningu. Na przykład. Jakie są te funkcje?
- Strony są czasami nieco obrócone, więc byłoby świetnie, gdyby klasyfikacja była nieco niewrażliwa na obrót i (w mniejszym stopniu) skalowanie.
- Chciałbym rozwiązanie wieloplatformowe, najlepiej w czystym Pythonie lub przy użyciu wspólnych bibliotek.
- Myślałem o używaniu OpenCV, ale wygląda na to, że jest to rozwiązanie "ciężkie".
Edycja:
- „A” i „B” strony różnią się tym, że strona „B” mają na nich form o takiej samej ogólnej strukturze, w tym obecności kodu kreskowego. Strony "A" są wolnym tekstem.
Czym się różnią? Czcionka? Rozmiar? Czy możesz po prostu OCR część (tytuł lub autor w nagłówku?) –
Nick, dodałem edycję, aby wyjaśnić na ten temat. Właściwie moim celem jest wyrzucenie wszystkiego * po * stronach B, ponieważ nie muszę ich OCR. Tak więc naprawdę muszę je wykryć przed wykonaniem jakiegokolwiek OCR. – Kyle
To jest dość trudny problem - chyba że twoja kolekcja jest naprawdę olbrzymia, czy nie byłoby prostsze ręczne kategoryzowanie stron jako "A" lub "B"? Możesz napisać małą aplikację GUI, aby wyświetlić je po kolei, tak abyś mógł nacisnąć tylko jeden klawisz na stronę. – katrielalex