2010-12-15 10 views
5

Szukam dokumentacji (oficjalnie dokumentacja, jeśli jest to możliwe) dla bibliotek TagSoup i jTidy.jTidy i dokumentacja TagSoup

Chcę używać tych bibliotek do manipulowania plikami html "tagsoup", które zawierają znaczniki xml z różnymi przestrzeniami nazw wymieszanymi między znacznikami html (html, xhtml lub html5).

Testowałem HTMLCleaner, NekoHTML i Jericho, ale nie znajduję dokumentacji dla jTidy i TagSoup, poza najprostszymi przykładami do wyczyszczenia pliku.

muszę dokumentację o manipulowanie zawartością, wymienić tagów wyodrębnić info, etc ...

Dzięki

Uwaga: Po teście wszystkie opcje, użyłem StAX/Woodstox:

+2

D id pod uwagę [Jsoup] (http://jsoup.org)? Nie można tego zrobić [lepiej/łatwiej] (http://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers). Ma również dobrą książkę kucharską (http://jsoup.org/cookbook/). – BalusC

+0

Testuję Jsoup. Wygląda na to, że jest łatwa, ale przeglądaj przykłady kodu, wydaje się, że nie jest bezpieczna dla wątków. czy mam rację? – angelcervera

+0

Czy to ja czy Jsoup nie obsługuje strumienia wyjściowego? – slott

Odpowiedz

2

Odpowiedź na podobne pytanie na grupie tagsoup-friends Google może pomóc:

Documentation for TagSoup

Pewnie już je widział, ale javadoc dla JTidy jest dostępny tutaj: http://jtidy.sourceforge.net/apidocs/index.html

+0

Więc TagSoup używa SAX API, ale ¿JTidy? :(Dzięki – angelcervera

+0

JTidy nie, jest to w zasadzie coś takiego jak dajesz mu strumień wejściowy, get to parsowane, a następnie uzyskać wyjście ze strumienia wyjściowego. – Gilbeg