6

Szukam sposobu na dopasowanie znanego zestawu danych, powiedzmy listę plików MP3 lub wav, z których każda jest próbką osoby mówiącej. W tym momencie wiem, że plik ABC mówi o osobie X.Sfinks CMU do rozpoznawania głosu/głośników

Chciałbym następnie wziąć kolejną próbkę i wykonać dopasowanie głosowe, aby pokazać, kto jest najbardziej prawdopodobny, biorąc pod uwagę znany zestaw danych.

Co więcej, niekoniecznie muszę przejmować się tym, co powiedziała osoba, o ile mogę znaleźć dopasowanie, tj. Nie potrzebuję żadnego przepisywania lub w inny sposób.

Jestem świadomy, że CMU Sphinx nie rozpoznaje głosu i jest używany przede wszystkim do komunikacji głosowej z tekstem, ale widziałem inne systemy, na przykład: Duszę głośnika LIUM (http: //cmusphinx.sourceforge. net/wiki/speakerdiarization) lub projekt VoiceID (https://code.google.com/p/voiceid/), który wykorzystuje CMU jako bazę dla tego typu pracy.

Jeśli mam używać CMU, jak mogę dopasować głos?

Co więcej, jeśli CMU Sphinx nie jest najlepszą strukturą, czy istnieje alternatywa open source?

+1

Jakąkolwiek kontynuację? Co ty zrobiłeś? Udało Ci się? – Dariusz

Odpowiedz

2

Jest to temat, który byłby wystarczająco złożony do napisania pracy doktorskiej. Obecnie nie ma dobrych i niezawodnych systemów.

Zadanie, na które masz ochotę, jest bardzo złożone. Sposób, w jaki powinieneś się do tego podejść, zależy od twojej sytuacji.

  • Czy masz ograniczoną liczbę osób? ile?
  • ile danych masz dla każdej osoby?

Jeśli masz bardzo mało ludzi do uznania, można próbować coś tak prostego jak uzyskaniu formants z tych ludzi i porównując je do próbki.

W przeciwnym razie - musisz skontaktować się z niektórymi naukowcami, którzy pracują nad tym tematem lub rozwiązują ławę przysięgłych własnym rozwiązaniem. Tak czy inaczej, jak powiedziałem, jest to trudny problem.

+0

Ciekawi mnie twoje stwierdzenie, że nie ma dobrych i niezawodnych systemów. [niniejszy artykuł] (http://publications.idiap.ch/downloads/papers/2012/Vijayasenan_INTERSPEECH2012_2012.pdf) wymienia cztery schematy diarizacyjne, a narzędzie LIUM (z 2009 r.) wspomniane w PO wydaje się dość dobrze wykorzystywane, np. przez społeczność Sphinx. Czy te istniejące podejścia mają określone ograniczenia? –

+0

Powinienem był napisać "nie znam żadnego". Nadal widziałeś te wyniki? Nie są tacy świetni. Używanie głosu jako funkcji biometrycznej nadal jest bardzo niewiarygodne. – Dariusz

Powiązane problemy