Chciałbym móc uzyskać stosunkowo aktualne statyczne pliki HTML z ogromnego (nawet po skompresowanym) pliku zrzutu XML z angielskiej Wikipedii enwiki-latest-pages-articles.xml.bz2 Pobrałem z WikiMedia dump page. Dostępnych jest sporo narzędzi, chociaż ich dokumentacja jest bardzo skąpa, więc nie wiem, co większość z nich robi, ani czy są aktualne z najnowszymi zrzutami. (Jestem raczej dobry w budowaniu robotów sieciowych, które mogą przeszukiwać relatywnie małe strony/pliki HTML, mimo że jestem okropny z SQL i XML i nie spodziewam się, że będę dobry z co najmniej rokiem.) Chcę móc indeksować pliki HTML uzyskane z dump w trybie offline bez konieczności przeszukiwania Wikipedii online.Uzyskiwanie statycznych plików HTML z Wikipedii XML dump
Czy ktoś wie o dobrym narzędziu do uzyskiwania statycznych plików HTML z ostatnich zrzutów XML Wikipedii?
Może również zająć tygodnie lub miesiące. Kiedyś kilka lat temu importowałem składy wiktoriańskie, które były kilka rzędów wielkości mniejsze i trwało to kilka dni. Robi to na bardzo wytrzymałej maszynie. Zastanawiam się, czy ktokolwiek może nam powiedzieć, ile czasu zajęło im zaimportowanie. – hippietrail
Czas przetwarzania z pewnością będzie brany pod uwagę. Być może w pewnym momencie uda mi się uzyskać solidny komputer stacjonarny, chociaż nie wiem, czy to wystarczyłoby, by poradzić sobie z skalą, o której tu mówimy. (Zastanawiam się, czy istnieje rozwiązanie równoległe.) Wiem, że dostępne są statyczne zrzuty HTML, chociaż najnowszy pochodzi z 2008 r., Który jest znacznie mniejszy niż idealny. –
Co powiesz na dynamiczne renderowanie tylko części potrzebnych do renderowania danej strony jako części skryptu dołączonego do niestandardowej dystrybucji Ubuntu w trybie offline? @hippietrail –