Mam klienta, który potrzebuje aplikacji na Androida, która rozpoznaje polecenia mówione. Z tego, co rozumiem, wbudowana funkcja głosowa na tekst faktycznie wysyła dane do serwerów Google, które następnie odsyłają tłumaczenie tekstowe. Jest to poważny problem, ponieważ dane głosowe są niezwykle wrażliwe (chyba że dane są szyfrowane, gdy są wysyłane do i od Google - ale wątpię, że są zaszyfrowane).Czy można skonfigurować CMU Sphinx do rozpoznawania ~ 200 słów?
Są 2 opcje, które mogę wymyślić. Pierwszy to konwersja mowy na tekst na Androida, choć wydaje się, że byłaby to niezwykle kosztowna operacja. Drugą możliwością jest przekonanie serwera lokalnego do konwersji danych (mógłbym zaszyfrować dane głosowe i tłumaczenie podczas wysyłania do i od). Czy to coś, co może sfrunąć CMU? Warto zauważyć, że będę miał również dostęp do serwera Asterisk, który mógłby w tym pomóc (nie wiem).
W rzeczywistości powinno być tylko ~ 200 słów, które trzeba będzie rozpoznać. Wolałbym rozwiązania open source/free software, ale jestem również otwarty na komercyjne rozwiązanie (być może FlexT9). Idealnie, mogę wysłać gdzieś strumień audio, odzyskać String będący tekstem, a następnie mogę parsować i robić inne rzeczy za pomocą String.
W przeszłości nie zrobiłem wiele androidów ani żadnego rozwoju rozpoznawania mowy, więc mam nadzieję, że ktoś przynajmniej wskaże mi właściwy kierunek. Dzięki!
Czy dostępne jest również rozwiązanie Microsoft dla systemu Android (ten, który sugerujesz)? – srf
To tylko komponent po stronie serwera. Trzeba będzie zbudować własną implementację klienta, aby przechwycić dźwięk i wysłać go na serwer. –