Jak usunąć znacznik HTML w Javie

Czy istnieje wyrażenie regularne, które może całkowicie usunąć znacznik HTML? Przy okazji, używam Java.Jak usunąć znacznik HTML w Javie

Źródło

2009-11-09 freddiefujiwara

wpisując swój tytuł w polu wyszukiwania, mam następujące: http://stackoverflow.com/search?q=How+to+remove+HTML+tag + w + Java ... czy nie dostałeś tego samego, kiedy publikowałeś pytanie? – kdgregory

Nie znalazłem żadnych duplikatów. Te pytania dotyczą ekstrakcji tekstu z HTML: http://stackoverflow.com/questions/240546/removing-html-from-a-java-string http: // stackoverflow.com/questions/832620/stripping-html-tags-in-java – tangens

Zamiast tego należy użyć parsera HTML. Podoba mi się htmlCleaner, ponieważ daje mi to dość wydrukowaną wersję HTML.

Z htmlCleaner można zrobić:

TagNode root = htmlCleaner.clean(stream); 
Object[] found = root.evaluateXPath("//div[id='something']"); 
if(found.length > 0 && found instanceof TagNode) { 
    ((TagNode)found[0]).removeFromTree(); 
}

Źródło

2009-11-09 06:05:36 tangens

Dzięki za skierowanie mnie do htmlCleaner :) – exhuma

Czy potrzebujemy uzyskać jakąkolwiek bibliotekę w celu użycia powyższego kodu? I root.evaluateXPath ("// div [id = 'something']"); w tym "czymś" może być każdy idit? proszę daj mi znać. dzięki –

nr Wyrażenia regularne nie mogą z definicji parsowania HTML.

Możesz użyć wyrażeń regularnych do s/<[^>]*\>// lub czegoś naiwnego, ale będzie to niewystarczające, szczególnie jeśli chcesz usunąć zawartość tagów.

Jak powiedział inny plakat, użyj rzeczywistego parsera HTML.

Źródło

2009-11-09 06:13:38

Jeśli wystarczy usunąć tagi następnie można użyć tego wyrażenia regularnego:

content = content.replaceAll("<[^>]+>", "");

usunie tylko tagów HTML, ale nie innych rzeczy. Dla bardziej złożonych rzeczy powinieneś użyć parsera.

EDIT: Aby uniknąć problemów z HTML komentarze można wykonać następujące czynności:

content = content.replaceAll("<!--.*?-->", "").replaceAll("<[^>]+>", "");

Źródło

2009-11-09 07:29:27

Ponieważ nie używasz żadnych znaków mięsa '.','^'i' $ ', flagi' s'- i 'm' można pominąć. –

To wyrażenie może powodować zniekształcenie, jeśli HTML zawiera komentarze XML z osadzonymi znakami "<' or '>". –

Alternatywnie, jeśli zamiarem jest wyświetlaczu wejściowe użytkownika sterowany z powrotem do klienta, a następnie można również po prostu wymień wszystkie < przez < i wszystkie > przez >. W ten sposób HTML nie zostanie zinterpretowany jako "jest" przez aplikację klienta (przeglądarkę internetową).

Jeśli używasz JSP jako technologii wyświetlania, możesz użyć do tego JSTL c:out. Unika domyślnie wszystkich jednostek HTML. Na przykład:

<c:out value="<script>alert('XSS');</script>" />

NIE wyświetli alertu, ale po prostu pokazuje rzeczywisty ciąg bez zmian.

Źródło

2009-11-09 14:09:23 BalusC

można użyć tego prostego kodu, aby usunąć wszystkie znaczniki HTML ...

htmlString.replaceAll("\\<.*?\\>", ""))

Źródło

2010-09-03 10:13:08 Kandha

Spowoduje to tylko usunięcie znaczników otwierających i pozostawienie tagów zamykających nieobsługiwanych. – jlordo

Nigdy nie wykonywałbym takiej pracy samemu - parsowanie html na zwykły tekst jest naprawdę pracowitą koleją. – jebbie

To zadziałało, ale może zależy od złożoności tagów, komentarzy, skryptów itp. Tak więc, dla złożonego przypadku może być lepiej biblioteka HTML. – jmoran

Jest JSoup który jest biblioteką Java wykonane do manipulacji HTML. Spójrz na metodę clean() i obiekt WhiteList. Łatwe w użyciu rozwiązanie!

Źródło

2012-01-27 16:40:51 Simon

WOW, sir, naprawdę zrobiłem mój dzień, lubię to, TAK! Markdownj, Markdown4J, htmlCleaner .. wszystkie z nich są ***** przepraszam .. JSoup to jedyny sposób, w którym naprawdę osiąga się to dzięki jednemu liniowemu: String plain = new HtmlToPlainText(). GetPlainText (Jsoup.parse (html)); – jebbie

Krótszy kod to 'String tekstowy = Jsoup.parse (html) .text();' – jrarama

@jrarama - Wcale. 'Jsoup.parse (html) .text()' usuwa wszystkie znaczniki i białe znaki, pozostawiając tylko długi wiersz tekstu, podczas gdy 'new HtmlToPlainText(). GetPlainText (Jsoup.parse (html))' formatuje tekst w uproszczony sposób, zachowując podział na wiersze, akapity, punkty wypunktowania itp. – isapir

Nie potrzebujesz żadnego analizatora HTML. Poniższy kod usuwa wszystkie komentarze HTML:

htmlString = htmlString.replaceAll("(?s)", "");

Źródło

2012-06-13 06:09:01

Jak usunąć znacznik HTML w Javie

Odpowiedz

Powiązane problemy