2009-01-18 18 views
5

Mam zamiar uruchomić aplikację, która konwertuje mowę na tekst w systemie Linux. Czy istnieją jakieś interfejsy, aby je przedłużyć? lub Czy istnieje taka aplikacja w systemie Linux? Jakieś wejścia na tym?Konwersja mowy na tekst w systemie Linux

EDYCJA: Wniosek, który planuję napisać, powinien być w stanie przekonwertować każde słowo, które mówimy, do tekstu, a nie tylko tak/nie.

Odpowiedz

8

Cóż, to jest dość przedsiębiorstwa i oczywistą, co technologia chcesz użyć, oto kilka linków:

Powodzenia. Bardziej szczegółowe informacje mogą nam dać lepsze odpowiedzi. Na przykład istnieje duża różnica między rozpoznawaniem stylu centrum telefonicznego "tak/nie" a nawet częściowym zrozumieniem języka naturalnego.

3

Sugestie Dave'a to świetny początek. Sfinks jest bardzo fajny.

Chcę tylko dodać, że powinieneś być tak probabilistyczny, jak to możliwe. Jako jednorazowy lingwista, a nawet wcześniejszy jednorazowy entuzjasta fonologii, mogę śmiało powiedzieć, że nie dorównają one modelom językowym. Nie zapominajmy o niewłaściwym przypisywaniu "za każdym razem, gdy strzelam językoznawcę, moja dokładność idzie w górę". Naprawdę chodzi o model i jego możliwości, by uwzględnić hałas i zmienność, a nie to, co ma do powiedzenia liberalny majstersztyk z MIT.

Dobra książka do odbioru to "Przetwarzanie mowy i języka" Jurafsky'ego i Martina. Ma kilka bardzo użytecznych zastosowań modeli obliczeniowych do zadania. Praca Harveya Sussmana na liniowych korelatach w zboczach F2 dla różnych samogłosek (zaczynając od płomykówka i zmierzając w kierunku ludzi) wydaje się być przyjemna do zaimplementowania w modelu jednego z tych dni.

1

Sphinx to najlepszy sposób na Linuksa. Próbowałem Sphinx II i Sphinx III. Dostępne są wersje językowe i modele akustyczne z otwartym kodem źródłowym, z których można korzystać w każdym z nich. Nie jest to wydajność na poziomie produkcyjnym, ale wystarczająco dobra do prototypowania lub demonstracji. Do produkcji trzeba opracować własny język i modele akustyczne.

Powiązane problemy