2010-04-16 28 views

Odpowiedz

14

Zapoznaj się z this page here on Wikipedia - istnieje opcja, aby po prostu pobrać archiwum z nazwami artykułów. Oto actual path to the download page:

  • All Titles (spakowane) - 32+ Mb w czasie oddelegowania.

Edit:

Można zauważyć non-angielskie tytuły pojawiające się na liście (i kilka przekleństw - być poinformowani) zawarty w enwiki-latest-all-titles-in-ns0.gz. Dzieje się tak, ponieważ domyślnie większość ludzi tworzy treści na głównej angielskiej wiki (kod języka en). Gdybyś miał zbadać inne zrzuty językowe, zauważysz, że są różne zestawy artykułów.

Czytanie na the main download page, istnieją odniesienia do możliwości użycia interfejsu Wikipedia API do wykonywania niektórych typów zapytań w Wikipedii, ale nie jestem pewien, czy to rozwiąże problem (taksonomia stron nie zapewnia prosty sposób na odróżnienie "angielskiej" treści od "treści na angielskiej wiki").

+0

To tylko artykuły w języku angielskim - skorzystaj z pierwszego linku, jeśli chcesz móc znaleźć tytuły artykułów (i streszczenia/treści) dla innych języków. –

+0

Bardzo dziękuję @AJ – Boolean

+0

Zauważyłem, że tytuły faktycznie zawierają inne języki. Czy istnieje sposób na zdobycie tylko tytułów w języku angielskim? – Boolean

0

Nie znam żadnej centralnej listy artykułów, ale jeśli potrzebna jest ich duża liczba, a nie pełna lista (biorąc pod uwagę, że jakakolwiek pełna lista zawsze będzie nieaktualna), wtedy można prawdopodobnie umieścić coś razem z wget, aby rekurencyjnie śledzić linki w wikipedii ze strony głównej i przechowywać otrzymane adresy URL.

+0

Jeśli naprawdę chciałeś skorzystać z tego rodzaju podejścia, możesz przeglądać indeksy, takie jak [wykaz alfabetyczny] (http://en.wikipedia.org/wiki/Wikipedia:Quick_index). –

+1

Pamiętaj jednak, że Wikipedia prosi jeśli * musisz * zastosować takie podejście (które nie powinno być konieczne), ograniczasz szybkość dostępu do stron, aby uniknąć przeciążenia ich serwerów. –

Powiązane problemy