Co chcę zrobić, to stworzyć interfejs API, który tłumaczy ludzką mowę na format IPA (International Phonetic Alphabet). Moje pytanie brzmi: gdzie są zasoby na temat dekodowania mowy na poziomie oryginalnego przebiegu audio. Szukałem API, ale większość tego, co znalazłem, tłumaczy wprost do alfabetu łacińskiego. Chciałbym stworzyć coś nieco dokładniejszego w zakresie rozróżniania fonetyki wokalnej.Jak rozszyfrować wprowadzanie mowy
Odpowiedz
Chciałbym zacząć od stwierdzenia, że ten projekt jest znacznie trudniejszy i bardziej skomplikowany, niż ci się wydaje. Mowa na przetwarzanie tekstu to bardzo duże i skomplikowane pole z ogromną ilością badań, które zostały w nim wykonane. Powodem, dla którego większość parserów wysyła rzeczy prosto do znaków rzymskich, jest to, że większość ich przetwarzania jest probabilistycznym dopasowaniem niewyraźnych dźwięków z ich kontekstem innych niejasnych dźwięków, aby odgadnąć, które słowa mają sens. Bardziej prawdopodobne jest, że znajdziesz coś, co da ci Soundex, a nie IPA. Powiedział, że jest to problem, na który zwrócono uwagę na kilku frontach. Twój najlepszy zakład to prawdopodobnie projekt Sphinx z CMU.
http://cmusphinx.sourceforge.net/wiki/start
To daje dobry start, ale trzeba zrobić założenie, że mowy na tekst przetwarzanie jest dużo bardziej rozwinięta niż jest w rzeczywistości, a nie istnieje prosty sposób tłumaczenia mowy IPA poprzez przebiegu z wszelka dokładność. Sphinx jest bardzo modularnym i całkowicie otwartym źródłem, więc dałoby ci ogromną ilość energii na wyciągnięcie ręki, i od tego momentu, czy możesz dowiedzieć się, jak sprawić, żeby to działało, zależy od ciebie, ale znowu. W żaden sposób nie rozwiązuje to problemu.
- 1. Bezpośrednie wprowadzanie głosu/mowy w przeglądarce mobilnej
- 2. Jak rozszyfrować ciąg w iphone
- 3. Jak rozszyfrować/nadąć struny gzip?
- 4. Jak rozszyfrować JSON z Pythonem
- 5. synteza mowy mowy mowy webowej - uzyskanie listy głosowej
- 6. Jakie czytniki mowy obsługują atrybuty mowy CSS3?
- 7. Jak rozszyfrować kod XML z XQuery?
- 8. Jak rozszyfrować "\ u0026" w adresie URL?
- 9. Jak rozszyfrować ciąg html przy użyciu xslt
- 10. Jak rozszyfrować ciąg JSON przy użyciu C#?
- 11. Jak rozszyfrować adres URL base64 w pythonie?
- 12. Jak rozszyfrować te informacje z wyjścia strace
- 13. Jak rozszyfrować treść pocztową w Go
- 14. Jak rozszyfrować pliki zaszyfrowane w programie ionCube?
- 15. Pisanie silnika rozpoznawania mowy
- 16. C++ Rozpoznawanie mowy API
- 17. Android: rozpoznawanie mowy
- 18. C# Rozpoznawanie mowy
- 19. Wprowadzanie pliku i Dart
- 20. Jak dodać rozpoznawanie mowy Google w aplikacji
- 21. Wprowadzanie funkcji bez przesłonięcia
- 22. Wprowadzanie bloku SQLite C++
- 23. DataGridView ograniczyć wprowadzanie użytkownika
- 24. AutoFac: Wprowadzanie wartości NULL
- 25. Rozpoznawanie mowy na telefonie iPhone
- 26. Jak akceptować wprowadzanie tekstu z GUI pygame
- 27. MacOSX: jak wyłączyć wprowadzanie znaków diakrytycznych
- 28. Jak rozszyfrować mp3 do wav używając lame w C/C++?
- 29. Jak rozszyfrować ciąg podobny do Unicode w Pythonie 3?
- 30. Jak rozszyfrować ciąg znaków do łańcucha XML w C#
Brzmi jak coś wartego zrobienia. Czy ktoś udokumentował, co wiadomo na temat obecnych metod wykorzystywanych do wymowy tekstu: <-->? – josiah
To prawie wszystko pod sfinksiem cmu, mają dość obszerny dziennik eksperymentów i modyfikacji, dzięki czemu można nie tylko zobaczyć, co jest obecnie zaimplementowane jako najnowsze i najlepsze, ale można również zobaczyć eksperymenty, które przeprowadzają, próbując znaleźć funkcje z optymalna wydajność. http://sourceforge.net/projects/cmusphinx/forums/forum/5470 –
Bardzo śliski. Nie mogę się doczekać tego projektu. Dzięki! – josiah