Mam problem, że chcę filtrować określone teksty, które mogą zawierać html. Używam jsoup do dodawania białej listy i czyszczenia tagów, które działają całkiem nieźle.Usuwanie atrybutu Jsoup na znacznikach html
Mam tylko problem, że niektóre z tagów mogą zawierać atrybuty, głównie style lub klasy, ale mogą również występować różne atrybuty. (nazwa, cel, itp.) Podczas czyszczenia nie stanowi to problemu, ponieważ są ładnie rozebrane, ale gdy doda się do białej listy niektóre znaczniki, które mogą zostać zablokowane z powodu atrybutów. Podstawowa biała lista nie wydaje się obejmować atrybutów stylu lub klasy oraz nie mogę być pewna, co jeszcze napotkam.
Ponieważ chcę zezwolić na dość szeroki zakres znaczników, ale usuwam większość z nich podczas czyszczenia, nie chcę dodawać wszystkich atrybutów dla wszystkich dozwolonych znaczników. Najprostszym rozwiązaniem byłoby usunięcie wszystkich atrybutów ze wszystkich tagów, ponieważ i tak nie jestem nimi zainteresowany, a następnie sprawdzam, czy usunięty tekst z tagami prostymi jest prawidłowy.
Czy istnieje funkcja, która usuwa wszystkie atrybuty lub jakąś prostą pętlę, inną opcją byłoby powiadomienie białej listy o zignorowaniu wszystkich atrybutów i po prostu umieszczenie na białej liście tagów.
Related: http://stackoverflow.com/questions/14303691/why-does-jsoup-remove-element-ids/14303971#14303971 –