Szukam dokumentacji (oficjalnie dokumentacja, jeśli jest to możliwe) dla bibliotek TagSoup i jTidy.jTidy i dokumentacja TagSoup
Chcę używać tych bibliotek do manipulowania plikami html "tagsoup", które zawierają znaczniki xml z różnymi przestrzeniami nazw wymieszanymi między znacznikami html (html, xhtml lub html5).
Testowałem HTMLCleaner, NekoHTML i Jericho, ale nie znajduję dokumentacji dla jTidy i TagSoup, poza najprostszymi przykładami do wyczyszczenia pliku.
muszę dokumentację o manipulowanie zawartością, wymienić tagów wyodrębnić info, etc ...
Dzięki
Uwaga: Po teście wszystkie opcje, użyłem StAX/Woodstox:
D id pod uwagę [Jsoup] (http://jsoup.org)? Nie można tego zrobić [lepiej/łatwiej] (http://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers). Ma również dobrą książkę kucharską (http://jsoup.org/cookbook/). – BalusC
Testuję Jsoup. Wygląda na to, że jest łatwa, ale przeglądaj przykłady kodu, wydaje się, że nie jest bezpieczna dla wątków. czy mam rację? – angelcervera
Czy to ja czy Jsoup nie obsługuje strumienia wyjściowego? – slott