2013-07-02 23 views
9

Używanie zrzutów Wikipedii Chcę zbudować hierarchię dla jej kategorii. Pobrałem główny zrzut (enwiki-latest-pages-articles) i kategorię Dump SQL (enwiki-latest-category). Ale nie mogę znaleźć informacji o hierarchii.Wikipedia Kategoria Hierarchia od zrzutu

Na przykład dump kategorii SQL zawiera wpisy dla każdej kategorii, ale nie mogę znaleźć nic na temat ich wzajemnego powiązania.

Drugi zrzut (ostatnie strony-artykuły) określa kategorie nadrzędne dla każdej strony, ale w nieuporządkowany sposób. Po prostu stwierdza wszystkich rodziców.

Widziałem hierarchię kategorii wikiprep (http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/) ... Jak to jest skonstruowane? Wikiprep wyświetla identyfikator kategorii, a nie jej nazwę. Czy istnieje sposób na uzyskanie nazwy dla każdego identyfikatora?

Odpowiedz

10

Informacje o hierarchii kategorii w MediaWiki są przechowywane w categorylinks table, więc będziesz potrzebować zrzutu categorylinks.

Będziesz także potrzebować zrzutu page (nie pages-articles) dla odwzorowania strony na tytuł.

+0

Dzięki! Szukałem tego przez całą noc! Kiedy powiedziałeś "strona", masz na myśli tę jedną enwiki-latest-page.sql.gz? (http://dumps.wikimedia.org/enwiki/latest/) – fersarr

+1

@fersarr Tak, właśnie to. – svick

+0

Przepraszam, że znowu zawracam sobie głowę tym tematem, pracuję nad tym, ale nie dostaję tego, czego się spodziewałem. Czy to jest poprawne: Z kategoriiLinks otrzymuję kategorie pageId i it's. Niektóre strony również będą kategoriami, więc łączenie wszystkich linków powinno prowadzić do hierarchii kategorii? – fersarr