Robię projekt, dla którego potrzebuję znać wszystkie nazwy artykułów wikipedia (nie potrzebuję treści). Czy jest miejsce, gdzie mogę pobrać te dane.Nazwy artykułów z Wikipedii (bez zawartości)
Odpowiedz
Zapoznaj się z this page here on Wikipedia - istnieje opcja, aby po prostu pobrać archiwum z nazwami artykułów. Oto actual path to the download page:
- All Titles (spakowane) - 32+ Mb w czasie oddelegowania.
Edit:
Można zauważyć non-angielskie tytuły pojawiające się na liście (i kilka przekleństw - być poinformowani) zawarty w enwiki-latest-all-titles-in-ns0.gz
. Dzieje się tak, ponieważ domyślnie większość ludzi tworzy treści na głównej angielskiej wiki (kod języka en
). Gdybyś miał zbadać inne zrzuty językowe, zauważysz, że są różne zestawy artykułów.
Czytanie na the main download page, istnieją odniesienia do możliwości użycia interfejsu Wikipedia API do wykonywania niektórych typów zapytań w Wikipedii, ale nie jestem pewien, czy to rozwiąże problem (taksonomia stron nie zapewnia prosty sposób na odróżnienie "angielskiej" treści od "treści na angielskiej wiki").
Nie znam żadnej centralnej listy artykułów, ale jeśli potrzebna jest ich duża liczba, a nie pełna lista (biorąc pod uwagę, że jakakolwiek pełna lista zawsze będzie nieaktualna), wtedy można prawdopodobnie umieścić coś razem z wget, aby rekurencyjnie śledzić linki w wikipedii ze strony głównej i przechowywać otrzymane adresy URL.
Jeśli naprawdę chciałeś skorzystać z tego rodzaju podejścia, możesz przeglądać indeksy, takie jak [wykaz alfabetyczny] (http://en.wikipedia.org/wiki/Wikipedia:Quick_index). –
Pamiętaj jednak, że Wikipedia prosi jeśli * musisz * zastosować takie podejście (które nie powinno być konieczne), ograniczasz szybkość dostępu do stron, aby uniknąć przeciążenia ich serwerów. –
- 1. Pobieranie tekstu w Wikipedii
- 2. Jak uzyskać dostęp do Wikipedii z R?
- 3. Jak odzyskać części zawartości Wikipedii w aplikacji na Androida?
- 4. Jak uzyskać krótki fragment tekstu i główny obraz artykułów Wikipedii według interfejsu API?
- 5. Wyodrębnianie danych z Wikipedii API
- 6. Rozpiętość z obrazem tła i bez zawartości
- 7. Abstrakty artykułów komputerowych
- 8. Nowości Zestawy danych artykułów
- 9. Parser dla Wikipedii
- 10. Wikipedia list = szukaj REST API: jak odzyskać URL pasujących artykułów
- 11. WebRequest, aby połączyć się z API Wikipedii
- 12. Parse daty urodzenia i śmierci z Wikipedii?
- 13. Parsowanie nazwy pliku nagłówka zawartości w wieloczęści/z danych
- 14. scalanie zawartości dwóch tabel bez powielania treści
- 15. statyczna metoda bez nazwy
- 16. javadoc bez nazwy pakietu
- 17. Pobranie wartości z @RequestParam bez określonej nazwy
- 18. Cytowanie artykułów przy użyciu roxygen2
- 19. Jak zdobyć więcej artykułów paszowych?
- 20. Przenoszenie artykułów blogów w Middleman
- 21. Co używa Wikipedii do skalowania?
- 22. Trwa pobieranie linków międzyjęzykowych z wyeksportowanego artykułu z Wikipedii?
- 23. Pobierz JSONArray bez nazwy tablicy?
- 24. Ustawianie typu zawartości odpowiedzi bez użycia HttpServletResponse
- 25. Uzyskiwanie statycznych plików HTML z Wikipedii XML dump
- 26. JS - Usuń tag bez kasowania zawartości
- 27. Zawijanie zawartości Div z javascript bez odświeżania iframe
- 28. Usuń tag p jQuery bez kasowania zawartości
- 29. Pobieranie zawartości lokalnego pliku bez przesyłania
- 30. Uzyskiwanie zawartości elementu BEZ jego dzieci
To tylko artykuły w języku angielskim - skorzystaj z pierwszego linku, jeśli chcesz móc znaleźć tytuły artykułów (i streszczenia/treści) dla innych języków. –
Bardzo dziękuję @AJ – Boolean
Zauważyłem, że tytuły faktycznie zawierają inne języki. Czy istnieje sposób na zdobycie tylko tytułów w języku angielskim? – Boolean