Piszę jeden program, który odczytuje i oddziela wiadomości spam i ham. Teraz czytam go przy użyciu klasy java bufferedreader. Jestem w stanie usunąć niechciane znaki takie jak '(' lub '' etc, stosując metodę replaceAll(). Chcę usunąć tagi html zbyt, w tym & wzmacniacza. Jak to osiągnąć !?usunąć znaczniki html z ciągu znaków przy użyciu java
dzięki
EDIT: Dzięki za odpowiedź, ale ja już o regex, jak połączyć obie moje potrzeby i umieścić w jednym Herezje regex używam teraz
lines.replaceAll("[^a-zA-Z]", " ")
. UWAGA:. Dostaję linie z plik txt Jakieś inne sugestie, które są dostępne w języku angielskim?
Próbowałem Jsoup..but jej nie working..no complile błąd, jego po prostu nie działa .. – Maverick
Podobne tematy http://stackoverflow.com/questions/1699313/how-to-remove-html -tag-in-java http://stackoverflow.com/questions/240546/removing-html-from-a-java-string –