2013-05-06 11 views
10

Gdzie mogę znaleźć dokumentację dotyczącą formatu modelu językowego ARPA?Dokumentacja modelu językowego ARPA

Pracuję nad prostą aplikacją rozpoznawania mowy z silnikiem kieszonkowym sfinks STT. ARPA jest tam polecana ze względu na wydajność. Chcę zrozumieć, ile mogę zrobić, aby dostosować mój model językowy do moich niestandardowych potrzeb.

Wszystko znalazłem jest kilka bardzo krótkie opisy formatów ARPA:

jestem początkujący STT i mam problemy owinąć głowę wokół tego (n-gramy, itp.). Szukam bardziej szczegółowych dokumentów. Coś podobnego dokumentacji na JSGF gramatyki tutaj:

http://www.w3.org/TR/jsgf/

+0

spójrz na ten link msdn .. Format arpa i args są dobrze wyjaśnione [Skompiluj gramatykę i wyjściowy format pliku] (https://msdn.microsoft.com/en-us/library/office/hh378460 (v = office.14) .aspx) –

Odpowiedz

3

Jest rzeczywiście nie wiele więcej do powiedzenia na temat formatu niż jest powiedziane w tych docs ..

Poza tym, prawdopodobnie będziesz chciał przygotować plik tekstowy z przykładowymi zdaniami i generate the language file based on it. Istnieje wersja on-line, który może zrobić dla Ciebie: lmtool

+1

Nadal używa niektórych n-gramów, backoffów, itp. Co to jest i gdzie mogę znaleźć więcej informacji na ich temat? – Lukasz

+1

@ Łukasz Co to jest n-gram? [Sekwencja N słów] (http://en.wikipedia.org/wiki/N-gram). Opóźnienie jest opcjonalne. A prawdopodobieństwo jest w skali log 10, o ile pamiętam. – Dariusz

4

znalazłem ten link przydatne: http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html

To opisuje n-znakowe ARPA aka aka formatu Doug Paul.

+0

Czy mógłbyś prawdopodobnie przesłać mały przykład (np. Z dwoma zdaniami i rozmiarem słownika około 5?) –

+0

Teraz twoja odpowiedź to tylko jak + nazwa "Format Douga Paula". Link był już w pytaniu. –