Jak rozszyfrować wprowadzanie mowy

Co chcę zrobić, to stworzyć interfejs API, który tłumaczy ludzką mowę na format IPA (International Phonetic Alphabet). Moje pytanie brzmi: gdzie są zasoby na temat dekodowania mowy na poziomie oryginalnego przebiegu audio. Szukałem API, ale większość tego, co znalazłem, tłumaczy wprost do alfabetu łacińskiego. Chciałbym stworzyć coś nieco dokładniejszego w zakresie rozróżniania fonetyki wokalnej.Jak rozszyfrować wprowadzanie mowy

Źródło

2012-07-19 josiah

Chciałbym zacząć od stwierdzenia, że ten projekt jest znacznie trudniejszy i bardziej skomplikowany, niż ci się wydaje. Mowa na przetwarzanie tekstu to bardzo duże i skomplikowane pole z ogromną ilością badań, które zostały w nim wykonane. Powodem, dla którego większość parserów wysyła rzeczy prosto do znaków rzymskich, jest to, że większość ich przetwarzania jest probabilistycznym dopasowaniem niewyraźnych dźwięków z ich kontekstem innych niejasnych dźwięków, aby odgadnąć, które słowa mają sens. Bardziej prawdopodobne jest, że znajdziesz coś, co da ci Soundex, a nie IPA. Powiedział, że jest to problem, na który zwrócono uwagę na kilku frontach. Twój najlepszy zakład to prawdopodobnie projekt Sphinx z CMU.

http://cmusphinx.sourceforge.net/wiki/start

To daje dobry start, ale trzeba zrobić założenie, że mowy na tekst przetwarzanie jest dużo bardziej rozwinięta niż jest w rzeczywistości, a nie istnieje prosty sposób tłumaczenia mowy IPA poprzez przebiegu z wszelka dokładność. Sphinx jest bardzo modularnym i całkowicie otwartym źródłem, więc dałoby ci ogromną ilość energii na wyciągnięcie ręki, i od tego momentu, czy możesz dowiedzieć się, jak sprawić, żeby to działało, zależy od ciebie, ale znowu. W żaden sposób nie rozwiązuje to problemu.

Źródło

2012-07-19 18:02:01

Brzmi jak coś wartego zrobienia. Czy ktoś udokumentował, co wiadomo na temat obecnych metod wykorzystywanych do wymowy tekstu: <-->? – josiah

To prawie wszystko pod sfinksiem cmu, mają dość obszerny dziennik eksperymentów i modyfikacji, dzięki czemu można nie tylko zobaczyć, co jest obecnie zaimplementowane jako najnowsze i najlepsze, ale można również zobaczyć eksperymenty, które przeprowadzają, próbując znaleźć funkcje z optymalna wydajność. http://sourceforge.net/projects/cmusphinx/forums/forum/5470 –

Bardzo śliski. Nie mogę się doczekać tego projektu. Dzięki! – josiah

Jak rozszyfrować wprowadzanie mowy

Odpowiedz

Powiązane problemy