i używa DOM doc załadować html z bazy danych tak:PHP Dom Dokumenty: coraz textContent ignorując tagów skryptu i komentarze
$doc = new DOMDocument();
@$doc->loadHTML($data);
$doc->encoding = 'utf-8';
$doc->saveHTML();
potem uzyskać tekst ciała, wykonując te:
$bodyNodes = $doc->getElementsByTagName("body");
$words = htmlspecialchars($bodyNodes->item(0)->textContent);
Słowa, które dostałem, obejmują wszystko w <body>
. Rzeczy takie jak <scripts>
również zostały uwzględnione. Jak mogę je usunąć i zachować tylko prawdziwą zawartość tekstową?
znaczy rekurencyjną zawartość tekstową ekstrakt z każdego elementu w ''
? –tylko treść tekstowa, która ma znaczenie, z wyłączeniem javascripts lub innych komentarzy html lub itp., Które nie są przydatnymi danymi. – nuttynibbles