Uzyskiwanie statycznych plików HTML z Wikipedii XML dump

Chciałbym móc uzyskać stosunkowo aktualne statyczne pliki HTML z ogromnego (nawet po skompresowanym) pliku zrzutu XML z angielskiej Wikipedii enwiki-latest-pages-articles.xml.bz2 Pobrałem z WikiMedia dump page. Dostępnych jest sporo narzędzi, chociaż ich dokumentacja jest bardzo skąpa, więc nie wiem, co większość z nich robi, ani czy są aktualne z najnowszymi zrzutami. (Jestem raczej dobry w budowaniu robotów sieciowych, które mogą przeszukiwać relatywnie małe strony/pliki HTML, mimo że jestem okropny z SQL i XML i nie spodziewam się, że będę dobry z co najmniej rokiem.) Chcę móc indeksować pliki HTML uzyskane z dump w trybie offline bez konieczności przeszukiwania Wikipedii online.Uzyskiwanie statycznych plików HTML z Wikipedii XML dump

Czy ktoś wie o dobrym narzędziu do uzyskiwania statycznych plików HTML z ostatnich zrzutów XML Wikipedii?

Źródło

2012-05-23 Brian Schmitz

Po pierwsze, import the data. Następnie utwórz pliki HTML za pomocą DumpHTML. Chociaż teoretycznie jest to proste, proces ten może być skomplikowany w praktyce ze względu na objętość danych i DumpHTML jest nieco zaniedbany, więc nie wahaj się przed ask for help.

Źródło

2012-05-23 07:21:16 MaxSem

Może również zająć tygodnie lub miesiące. Kiedyś kilka lat temu importowałem składy wiktoriańskie, które były kilka rzędów wielkości mniejsze i trwało to kilka dni. Robi to na bardzo wytrzymałej maszynie. Zastanawiam się, czy ktokolwiek może nam powiedzieć, ile czasu zajęło im zaimportowanie. – hippietrail

Czas przetwarzania z pewnością będzie brany pod uwagę. Być może w pewnym momencie uda mi się uzyskać solidny komputer stacjonarny, chociaż nie wiem, czy to wystarczyłoby, by poradzić sobie z skalą, o której tu mówimy. (Zastanawiam się, czy istnieje rozwiązanie równoległe.) Wiem, że dostępne są statyczne zrzuty HTML, chociaż najnowszy pochodzi z 2008 r., Który jest znacznie mniejszy niż idealny. –

Co powiesz na dynamiczne renderowanie tylko części potrzebnych do renderowania danej strony jako części skryptu dołączonego do niestandardowej dystrybucji Ubuntu w trybie offline? @hippietrail –

Uzyskiwanie statycznych plików HTML z Wikipedii XML dump

Odpowiedz

Powiązane problemy