Poszukuję dobrej jakości parsera HTML mikrodanych w Pythonie. Nie musi to być szybkie, ale chciałbym, aby obsłużył jak najwięcej the spec, w tym itemref
.Który analizator składni mikrodanych powinien być używany w Pythonie
Oto co znalazłem do tej pory:
- https://github.com/edsu/microdata
- https://github.com/RDFLib/pymicrodata
- https://pypi.python.org/pypi/pelican-microdata/0.1
Czy korzystal z tych bibliotek? Jakie były plusy i minusy?
Jestem również ciekawy parsowania źle sformatowanych dokumentów HTML. Czy znalazłeś analizator składni mikrodanych, który obsługuje niechciane dane wejściowe, czy też uruchamiasz najpierw coś podobnego, jak np. BeautifulSoup?
Albo RDF z JSON są akceptowalnym wyjściem. Dopóki mogę dokonać iteracji wartości właściwości przedmiotu. W końcu mógłbym być zainteresowany uzyskaniem danych wyjściowych jako JSON-LD, ale prawdopodobnie jest to taka sama ilość pracy do wygenerowania tego z JSON lub RDF. –
Skończyłem z wykorzystaniem parsera Eda Summersa. To załatwiło wszystko, co do tej pory rzuciłem. Dzięki! –