2012-06-29 18 views
20

Chcę używać Google 2-gramów do mojego projektu; ale rozmiar danych sprawia, że ​​wyszukiwanie jest kosztowne zarówno pod względem szybkości, jak i przechowywania.
Czy jest dostępny Web-API do tego celu (w dowolnym języku)? Strona internetowa http://books.google.com/ngrams/graph renderuje obraz, czy mogę uzyskać wartości danych?Google N-Gram Web API

Odpowiedz

13

Cóż, mam wokoło sposób to robić, korzystając Google BigQuery
tym, trygramy są dostępne w domenie publicznej. Korzystanie z Command line access wykonałem za mnie to zadanie.

+0

W jaki sposób dotarłeś do danych ngram? Nie widziałem tego w przykładowych zestawach danych! – metdos

+12

otwórz https://bigquery.cloud.google.com/?pli=1, (i zaakceptuj warunki korzystania z usługi i wszystko to, jeśli jeszcze nie zostało zrobione, i ponownie otwórz łącze), a następnie w lewym panelu bocznym wybierz "trygramy" "under" publicdata: samples " – Five

+1

Inną alternatywą jest usługa sieciowa o nazwie [PhraseFinder] (http://phrasefinder.io). –

8

znalazłem doskonałą alternatywą: Microsoft Web n-znakowe

To może być sprawdzony na różne sposoby, w tym straighforward rozmowy przejść przez REST interface. Na przykład wywołanie URL:

http://weblm.research.microsoft.com/weblm/rest.svc/bing-body/apr10/1/jp?u={YOUR_TOKEN}&p=red+panda 

powraca

-9.005 

który jest prawdopodobieństwo dziennik frazy red panda.

Ponadto jest bardziej poręczny niż Google N-Grams, ponieważ podana fraza nie jest po prostu wyprowadzana z bezwzględnej częstotliwości, ale może wyprowadzać wspólne prawdopodobieństwo, warunkowe prawdopodobieństwo, a nawet najbardziej prawdopodobne słowa, które następują.

Zastrzeżenie: Nie jestem pracownikiem firmy Microsoft, po prostu uważam, że znalazłem niesamowitą usługę.

+0

Właśnie zażądałem klucza API z MS. Jedynym mechanizmem oferowanym do rejestracji jest wysłanie wiadomości e-mail. Wydaje mi się, że nie ma automatycznej rejestracji dla usługi Microsoft. – knb

+0

To prawda. Odkryłem też, że to dziwny wybór. – Alphaaa

+0

Hmmm. web-ngram.research.microsoft.com trwało zbyt długo, aby odpowiedzieć. –