Pracuję nad oprogramowaniem dla dzieci i szukam możliwości, aby oprogramowanie reagowało na wiele dźwięków niemówiących. Na przykład: klaskanie, szczekanie, gwizdy, odgłosy pierdnięć itp.Hałas lub oprogramowanie do rozpoznawania mowy?
Używam CMU Sphinx i Windows Speech API w przeszłości, jednak, o ile mogę powiedzieć, żadne z nich nie mają wsparcia dla odgłosy mowy i faktycznie uważam, że aktywnie je odfiltrowuję.
Generalnie szukam „Jak mogę dostać tej funkcji”, ale podejrzewam, że to może pomóc, jeśli rozbicie go na trzy pytania, które są moje domysły o co szukać dalej:
- Czy istnieje sposób wykorzystania jednego z głównych mechanizmów rozpoznawania mowy do rozpoznawania dźwięków innych niż słowa przez zmianę modelu akustycznego lub leksykonu wymowy?
- (lub) Czy istnieje już biblioteka do rozpoznawania szumów innych niż Word?
- (lub) Mam trochę znajomości z ukrytymi modelami Markova i podstawową techniką rozpoznawania głosu w college'u, ale nie ma dobrych szacunków na temat tego, jak trudno byłoby stworzyć bardzo mały oddźwięk/dźwięk od zera (załóżmy, że < 20 hałasów do rozpoznania). Jeśli 1) i 2) zawiodą, to czy oszacujesz, ile czasu zajmie mi wyrzucenie własnego?
Dzięki
[Moja odpowiedź] (http://stackoverflow.com/q/8285673/22364) na pytanie [Identyfikacja w czasie rzeczywistym dźwięku niemuzycznego, niemuzycznego od ciągłego strumienia mikrofonu] (http: // stackoverflow.com/q/8285673) mogą być istotne. –