2013-04-02 14 views
5

Poszukuję dobrej jakości parsera HTML mikrodanych w Pythonie. Nie musi to być szybkie, ale chciałbym, aby obsłużył jak najwięcej the spec, w tym itemref.Który analizator składni mikrodanych powinien być używany w Pythonie

Oto co znalazłem do tej pory:

Czy korzystal z tych bibliotek? Jakie były plusy i minusy?

Jestem również ciekawy parsowania źle sformatowanych dokumentów HTML. Czy znalazłeś analizator składni mikrodanych, który obsługuje niechciane dane wejściowe, czy też uruchamiasz najpierw coś podobnego, jak np. BeautifulSoup?

Odpowiedz

4

W jakim formacie analizowane są mikrodane?

https://github.com/RDFLib/pymicrodata będzie analizować do RDF.

Jeśli chcesz używać JSON, powinieneś użyć https://github.com/edsu/microdata, który ostatnio zyskał trochę uwagi i powinien być bardziej zgodny ze specyfikacją.

Wydaje się być sposobem na generowanie mikrodanych dla konkretnego statycznego generatora witryn, więc nie sądzę, że pomoże to w analizie.

Nie wiem, jak tolerancyjny dla słabo sformatowanego HTML jest jeden z powyższych parserów. Jeśli znasz źle sformatowany język znaczników używający mikrodanych, chciałbym zobaczyć, jak dobrze te parsery obsługują te partycje.

+0

Albo RDF z JSON są akceptowalnym wyjściem. Dopóki mogę dokonać iteracji wartości właściwości przedmiotu. W końcu mógłbym być zainteresowany uzyskaniem danych wyjściowych jako JSON-LD, ale prawdopodobnie jest to taka sama ilość pracy do wygenerowania tego z JSON lub RDF. –

+1

Skończyłem z wykorzystaniem parsera Eda Summersa. To załatwiło wszystko, co do tej pory rzuciłem. Dzięki! –

Powiązane problemy