2009-09-20 5 views
7

Potrzebuję listy popularnych imion dla ludzi, takich jak "Bill", "Gordon", "Jane" itp. Czy jest jakaś darmowa lista mnóstwa znanych imion, zamiast mnie je wpisywać? Coś, co mogę łatwo analizować za pomocą programu, aby na przykład wypełnić tablicę?Zwykłe, komputerowe sparsowane listy popularnych imion?

ja nie martwię:

  • wiedząc, czy dana nazwa jest męski lub kobiecy (lub oba)
  • Jeśli zestaw danych musi cały stos fałszywych alarmów
  • Jeśli są nazwy, które nie są na nim, oczywiście żaden zestaw danych nie będzie kompletny.
  • Jeśli istnieją "duplikaty", tj. Nie interesuje mnie, czy w zestawie danych jako "różne" są "Bill" i "William" oraz "Billy". Wolałbym mieć więcej danych niż mniej
  • Nie dbam o znając popularność nazwę

wiem Wikipedia ma list of most popular given names, ale to wszystko na stronie HTML i manged się z okropnym składni wiki . Czy istnieje lepszy sposób na uzyskanie takich przykładowych danych bez konieczności przeglądania scrape wikipedii?

Odpowiedz

25

To powinno wystarczyć, aby zacząć, tak mi się wydaje.

5

Możesz łatwo korzystać z Wikipedii API (http://en.wikipedia.org/w/api.php), aby pobrać listę stron w określonej kategorii, wygląda jak Kategoria: Podane nazwy to coś, od czego chcesz zacząć.

http://en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmnamespace=0&cmlimit=500&cmtitle=Category:Given_names 

Część wyniku z tego adresu URL wygląda następująco:

<cm pageid="5797824" ns="0" title="Abdou" /> 
    <cm pageid="5797863" ns="0" title="Abdu" /> 
    <cm pageid="859035" ns="0" title="Abdul Aziz" /> 
    <cm pageid="6504818" ns="0" title="Abdul Qadir" /> 

Spójrz na czynnych i wybrać odpowiednie parametry formatu i zapytań oraz sprawdzić kategorię.

P.S. BTW, tekst wiki ze strony, którą łączyłeś, aby zawierał nazwy w formie, która jest łatwa do wyodrębnienia za pomocą wyrażeń regularnych ... Oprócz tytułów linków na renderowanej stronie HTML, "(nazwa)" jest dołączone do samej nazwy .

+0

Opcja * cmlimit * w kwerendzie jest maksymalna (500) dozwolona dla nieautoryzowanych użytkowników i może zostać zwiększona do 5000 pozycji. W każdym razie za pomocą opcji * cmcontinue * można pobrać wszystkie wyniki porcji według kawałka ... –

Powiązane problemy