2008-12-04 18 views
7

Na podcast Stackoverflow w tym tygodniu, Jeff wspomniał, że w 2004 roku napisał skrypt, który zwrócił się do Google z 110 000 angielskich słów i zebrał bazę danych zawierającą liczbę trafień dla każdego słowa. Używają tego na Stackoverflow np. dla listy "Powiązane" po prawej stronie każdej strony z pytaniami.Bezpłatna baza danych częstotliwości słów Google?

Ponieważ stworzenie jednego z nich dzisiaj z podobnym scenariuszem byłoby trudne (jak Joel wspomniał, "przy 30 000 słów, które zapukało do twoich drzwi"), zastanawiałem się, czy ktoś wie o bardziej aktualnym , bezpłatna baza danych częstotliwości słów Google (np. dla słów informatycznych, które na pewno zmieniły się od tego czasu, takich jak jquery, ruby, lazur itp.).

+0

Link do odpowiedniego podcastu byłby interesujący. – hippietrail

Odpowiedz

4

Szybkie wyszukiwanie w Google (!) Powoduje kilka trafień. Ten link wygląda obiecująco:

Ale nie jest skierowany na słowa IT.

0

Możesz podzielić listę między znajomych/współpracowników i użyć wystarczająco dużych limitów czasu, aby nie przekroczyć 50 000 żądań dziennie na adres IP, a następnie połączyć wyniki. Nie jestem pewien co do legalności tego podejścia, ale prawdopodobieństwo, że ludzie Google "pukają do twoich drzwi" przy użyciu tej metody jest dość niskie.

UWAGA: edytowane zgodnie z danymi dostarczonymi przez Skuta

1

Według Google, można wysłać 50.000 zapytań dziennie na jednego IP. Naprawdę nie sądzę, że dzielenie go między twoich znajomych jest nielegalne.

Miałem podobny problem z zapytaniami na dzień na adres IP, ale rozwiązaliśmy go zupełnie inaczej.

+0

czy myślisz, że dzielisz to "inne" podejście? –

2

Może za późno, aby odpowiedzieć na to pytanie, ale mogę zaproponować Wam inny sposób. Zamiast uzyskiwać "liczbę trafień" od Google, aby samodzielnie obliczyć przybliżenie. Pobierz dużą kolekcję stron tekstowych (Corpus) i policz numer każdego słowa w nim. Zrobiłem to z Wikipedii. Jest zrzut wszystkich stron wiki. Wystarczy napisać parser, aby wyodrębnić tekst i policzyć słowa. Wynikiem jest lista ponad 110K słów (co najmniej 2M-3M). Jeśli naprawdę potrzebujesz liczb w wynikach wyszukiwania Google, możesz pobrać próbkę słów i wysłać zapytanie do Google, a następnie dokonać normalizacji wartości wyliczonych, aby dopasować wartości Google. Mam nadzieję, że to pomoże.

Powiązane problemy