Quasi tekst HTML wygląda następująco: Simple<br> text <b>simple</b> text simple <BR><BR>text simple text
, Chciałbym przetworzyć go i utworzyć dom document. Ale problem jest z niezamkniętych znaczników, gdy próbuję to:Jak analizować tekst quasi-html w java?
DocumentBuilder builder = DocumentBuilderFactory.newInstance().newDocumentBuilder();
InputSource source = new InputSource(new StringReader(
Document doc = builder.parse(source);
błąd: org.xml.sax.SAXParseException; The element type "br" must be terminated by the matching end-tag
Nie chcę wymieniać wszystkich <br>
przez <br></br>
, każdego rozwiązania lub porady?
Prawdopodobnie nie można wprowadzić go do DOM. Musisz użyć łagodnego parsera HTML, na przykład [jSoup] (http://jsoup.org/) - spróbuje on naprawić kod HTML. Trochę jak przeglądarka internetowa. –
Myślę, że można to zrobić za pomocą HTMLEditorKit ... – linski
@BoristheSpider nie trzeba jSoup można zrobić ze standardowej Java, zobacz moją odpowiedź. – linski