Jak analizować tekst quasi-html w java?

Quasi tekst HTML wygląda następująco: Simple text simple text simple text simple text, Chciałbym przetworzyć go i utworzyć dom document. Ale problem jest z niezamkniętych znaczników, gdy próbuję to:Jak analizować tekst quasi-html w java?

DocumentBuilder builder = DocumentBuilderFactory.newInstance().newDocumentBuilder(); 
InputSource source = new InputSource(new StringReader(
Document doc = builder.parse(source);

błąd: org.xml.sax.SAXParseException; The element type "br" must be terminated by the matching end-tag

Nie chcę wymieniać wszystkich   przez  , każdego rozwiązania lub porady?

Źródło

2013-08-01 tostao

Prawdopodobnie nie można wprowadzić go do DOM. Musisz użyć łagodnego parsera HTML, na przykład [jSoup] (http://jsoup.org/) - spróbuje on naprawić kod HTML. Trochę jak przeglądarka internetowa. –

Myślę, że można to zrobić za pomocą HTMLEditorKit ... – linski

@BoristheSpider nie trzeba jSoup można zrobić ze standardowej Java, zobacz moją odpowiedź. – linski

Użyj jsoup i ciesz się łatwością użytkowania.

Źródło

2013-08-01 08:59:25

Musisz przepisać wszystkie dobrze utworzone HTML. Zasadniczo przejdziesz przez tekst i utworzysz listę wszystkich otwierających tagów. Po znalezieniu odpowiedniego znacznika zamykającego możesz go usunąć z listy. Kiedy skończysz i nadal masz wpisy na tej liście, wiesz, że nie jest dobrze uformowany.

Problem polega na tym, gdzie należy wstawić niezamknięte znaczniki. Możesz spróbować wstawić odpowiedni znacznik zamykający, zaraz po następnym słowie. W twoim przypadku możesz po prostu zastąpić tag br przez br/tag, jeśli jest to jedyne zdarzenie. W ten sposób ciąg represntes treść dokumentu.

string = string.replace("<br>", "<br />");

Źródło

2013-08-01 08:36:29

Jak analizować tekst quasi-html w java?

Odpowiedz

Powiązane problemy