Uczę się sieci neuronowych i próbuję stworzyć system rozpoznawania głośników z tensorflow. Chciałem wiedzieć, jak długość wypowiedzi wpływa na sieć neuronową. Na przykład mam 1000 różnych nagrań dźwiękowych o tej samej długości i 1000 różnych nagrań dźwiękowych o różnych długościach. Jak teoretycznie będzie działać sieć neuronowa z tymi rodzajami danych? Czy sieć neuronowa z bazą danych o tej samej długości będzie lepiej czy gorzej? Czemu?Jak długość wypowiedzi wpływa na sieć neuronową w rozpoznawaniu głośników?
5
A
Odpowiedz
1
To zależy od rodzaju sieci neuronowej. Przy takim projekcie zwykle podaje się liczbę neuronów wejściowych, sou nie może podawać danych o dowolnej długości. W przypadku dłuższych sekwencji musisz albo przyciąć swoje dane, albo użyć przesuwanego okna.
Jednak niektóre sieci neuronowe umożliwiają przetwarzanie dowolnej kolejności wejść, np. Recurrent Neural Network. Te ostatnie wydają się być bardzo dobrym kandydatem na twój problem. Here to dobry artykuł opisujący implementację określonego typu RNN, o nazwie Long Short-Term Memory, która działa dobrze z rozpoznawaniem mowy.
1
Powiązane problemy
- 1. Próbuję napisać własną Sieć neuronową w Pythonie
- 2. Jak mogę zaimplementować rekurencyjną sieć neuronową w TensorFlow?
- 3. Jak mogę trenować sieć neuronową, aby zagrać w grę 2048?
- 4. Jak zbudować neuronową sieć konwolucji w uczeniu maszynowym Azure?
- 5. Czy można uruchomić sieć neuronową w odwrotnej kolejności?
- 6. Jak sprawdzić dane wyjściowe podane przez Probabilistyczną sieć neuronową w programie MATLAB?
- 7. #if Wypowiedzi w kierownicy
- 8. Jak wyszkolić sieć neuronową do nadzorowanego zestawu danych za pomocą optymalizacji czarnej skrzynki pybrain?
- 9. Jak utworzyć prostą, trójwarstwową sieć neuronową i nauczać ją za pomocą nadzorowanego uczenia?
- 10. Funkcja aproksymująca z siecią neuronową
- 11. Podział głośników i dialog w RStudio
- 12. DOŁĄCZ dwie wypowiedzi SELECT
- 13. z-index, jak wpływa to na wydajność?
- 14. Jak kolejność mixinów wpływa na klasę pochodną?
- 15. Porządkowanie wypowiedzi po rozróżnieniu
- 16. Co oznaczają znaczniki BILOU w Rozpoznawaniu nazwanego?
- 17. Jak przekierować dźwięk do głośników w aplikacji AppRTC iOS?
- 18. Sieć pakietowa na poziomie Android
- 19. W jaki sposób następujący fragment wypowiedzi ocenia na „10”
- 20. Jak funkcja Doze/Standby wpływa na aktualizacje lokalizacji?
- 21. Sfinks CMU do rozpoznawania głosu/głośników
- 22. referencyjny szablon zmienna w ciągu wypowiedzi Jinja
- 23. R - zespół z siecią neuronową?
- 24. Sieć neuronowa 0 kontra -1
- 25. Sieć Android
- 26. Ile wyrażeń "jeśli" wpływa na wydajność?
- 27. Struktura/przewodnik po rozpoznawaniu obrazów - rozszerzona rzeczywistość
- 28. Jak zmienić długość pola tekstowego w szynach?
- 29. Czy zmiana kolejności Java wpływa na System.currentTimeMillis()?
- 30. . Usuwanie śmieci .NET - na co wpływa?