Obecnie próbuję wdrożyć podstawowe rozpoznawanie mowy w AS3. Potrzebuję tego po stronie klienta, ponieważ nie mam dostępu do wydajnych narzędzi rozpoznawania mowy po stronie serwera. Pomysł polegał na wykryciu sylab w słowie i wykorzystaniu go do określenia słowa. Jestem świadomy, że to pozwoli ograniczyć możliwości rozpoznawania, ale muszę tylko rozpoznać kilka słów kluczowych i mogę upewnić się, że wszystkie mają różną liczbę sylab.Wykrywanie wielu szczytów 1D?
Obecnie jestem w stanie wygenerować tablicę 1D poziomu głosu dla wypowiedzianego słowa i wyraźnie widzę, jeśli w jakiś sposób ją narysuję, że w większości przypadków istnieją wyraźne szczyty sylab. Jednak całkowicie utknąłem w kwestii tego, w jaki sposób poznam te szczyty. Naprawdę potrzebuję tylko liczenia, ale przypuszczam, że to przychodzi ze znalezieniem ich. Początkowo myślałem o złapaniu kilku maksymalnych wartości i porównaniu ich ze średnią wartości, ale zapomniałem o tym, że szczyt jest większy od innych i jako takie, wszystkie moje "szczyty" znajdowały się na jednym rzeczywistym piku.
Natknąłem się na some Matlab code, który wygląda prawie zbyt krótko, aby mógł być prawdziwy, ale nie mogę tego zrobić, ponieważ nie jestem w stanie przekonwertować go na język, który znam. Próbowałem AS3 i C#. Zastanawiam się więc, czy moglibyście uruchomić mnie na właściwej ścieżce, czy mielibyście pseudo-kod do detekcji pików?
Ta funkcja nie zwraca niczego, ale gdyby tak się stało, nie byłoby to po prostu wrócić indeks najwyższy szczyt - nie wszystkie szczyty? – Matt