Używam JTidy v. R938. Używam tego kodu, aby próbować oczyścić stronę ...Jak sprawić, aby JTIdy tworzyło dobrze dokumenty HTML?
final Tidy tidy = new Tidy();
tidy.setQuiet(false);
tidy.setShowWarnings(true);
tidy.setShowErrors(0);
tidy.setMakeClean(true);
Document document = tidy.parseDOM(conn.getInputStream(), null);
Ale kiedy analizować ten adres - http://www.chicagoreader.com/chicago/EventSearch?narrowByDate=This+Week&eventCategory=93922&keywords=&page=1, rzeczy nie są coraz czyszczone. Na przykład, meta tagi na stronie, jak
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
pozostanie
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
zamiast o "</META >" tag lub wyglądające jak "< meta http-equiv =" Content -Type "content =" text/html; charset = UTF-8 "/ >". Potwierdzam to, wysyłając wynikowy plik JTidy org.w3c.dom.Document jako ciąg.
Co mogę zrobić, aby JTidy naprawdę oczyściło stronę - czyli uczynić ją dobrze uformowaną? Zdaję sobie sprawę, że istnieją inne narzędzia, ale to pytanie dotyczy konkretnie korzystania z JTIdy.
kiedykolwiek znaleźć rozwiązanie tego? –