2016-09-26 18 views
5

Używam Chromium Google Speech API i przełączam się do korzystania z Google Cloud Speech API ostatnio. Odkąd Google Cloud API mowy zostało ogłoszone, wydaje się, że wydajność pogorszyła się pod względem dokładności rozpoznawania. Również widzę, że coraz więcej "pustych wyników" wraca do strumienia audio.google cloud speech api powracający pusty wynik

Przesyłam strumień audio jednocześnie do wielu różnych usług, a Google Cloud Speech API zwraca pusty wynik, podczas gdy niektóre inne usługi zwracają przepisany tekst. Zastanawia mnie, czy coś się zmieniło w działaniu interfejsu API Chromium Speech i interfejsu Google Cloud Speech API?

Sprawdziłem poprawność dźwięku dla odpowiednich nagłówków i potwierdziłem, że przesyłam strumień audio do Google.

Czy ktoś, kto korzysta z tego Google czasami (bardziej jak większość czasu), zwraca pusty wynik?

+0

Podobne do http://stackoverflow.com/questions/38906527/google-speech-recognition-api-result-is-empty –

Odpowiedz

4

Tego typu pytanie jest bardziej odpowiednie dla Public Issue Tracker, ponieważ wymagałoby to dalszych szczegółów w celu odtworzenia dokładnych błędów. Wypełnij tę form wymaganą informacją lub przynajmniej minimalnym przykładem działania kodu, wyraźnie podkreślając problem. Aby uzyskać dokładną reprodukcję, ważne byłoby podanie przykładowych kodów lub poleceń, które zostały wykonane i które zwróciły błąd wraz z plikami konfiguracyjnymi i identyfikatorami URI (lub plikami) strumieniowych plików audio, które zwróciły puste wyniki.

W rzeczywistości istnieją znane problemy z interfejsem API mowy, który jest obecnie w fazie beta i dlatego może uniemożliwić prawidłowe działanie transkrypcji. W międzyczasie możesz odnieść się do następującej documentation, aby ustalić, czy któraś z najlepszych praktyk dotyczy Twojej sprawy.

1

Otrzymywałem również puste odpowiedzi, ale ostatecznie otrzymałem wyniki kodowania z różnymi ustawieniami.

sox async.wav -t raw --channels=1 --bits=16 --rate=16000 --encoding=signed-integer --endian=little async.raw

1

Mam również ten sam problem, że Google Speech API zwrócony pusty wynik. Użyłem FFmpgeg do konwersji mojego pliku audio na LINEAR16. Do instalacji tego narzędzia użyłem Homebrew:

brew install ffmpeg 

do konwertowania mój plik audio do LINEAR16 użyłem tego polecenia:

ffmpeg -i input.flac -f s16le -acodec pcm_s16le output.raw 

A po załadowałem go do mojego Google stogage: https://console.cloud.google.com/storage/browser/

Tutaj to mój plik JSON z konfiguracją do żądania:

{ 
    'config': { 
     'encoding':'LINEAR16', 
     'sampleRate': 16000, 
     'languageCode': 'en-US' 
    }, 
    'audio': { 
     'uri':'gs://your-bucket-name/output.raw' 
    } 
} 

Dla f iles więcej niż 1 minutę musisz użyć metody Asyncrecognize:

curl -s -k -H "Content-Type: application/json" \ 
-H "Authorization: Bearer [YOUR-KEY]" \ 
https://speech.googleapis.com/v1beta1/speech:asyncrecognize \ 
-d @sync-request.json 

to zwróci identyfikator operacji. Można sprawdzić, czy jest gotowy uzyskać wynik działania:

curl -s -k -H "Content-Type: application/json" \ 
-H "Authorization: Bearer " [YOUR-KEY]\ 
https://speech.googleapis.com/v1beta1/operations/[OPERATION-ID] 
Powiązane problemy