Próbuję usunąć wszystkie html/javascript przy użyciu bs4, jednak nie pozbyć się javascript. Wciąż to widzę z tekstem. Jak mogę to obejść?BeatifulSoup4 get_text nadal ma javascript
Próbowałem użyć nltk
, który działa dobrze, ale clean_html
i clean_url
zostaną usunięte poruszając się do przodu. Czy istnieje sposób na zupy get_text
i uzyskać taki sam wynik?
Próbowałem patrząc na innych stronach:
BeautifulSoup get_text does not strip all tags and JavaScript
Obecnie używam funkcji nieaktualnych w NLTK użytkownika.
EDIT
Oto przykład:
import urllib
from bs4 import BeautifulSoup
url = "http://www.cnn.com"
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
print soup.get_text()
wciąż widzę następujące dla CNN:
$j(function() {
"use strict";
if (window.hasOwnProperty('safaripushLib') && window.safaripushLib.checkEnv()) {
var pushLib = window.safaripushLib,
current = pushLib.currentPermissions();
if (current === "default") {
pushLib.checkPermissions("helloClient", function() {});
}
}
});
/*globals MainLocalObj*/
$j(window).load(function() {
'use strict';
MainLocalObj.init();
});
Jak mogę usunąć js?
Tylko inne opcje znalazłem to:
https://github.com/aaronsw/html2text
Problem z html2text
jest to, że naprawdę naprawdę powolny czasami i tworzy zauważalne opóźnienie, które jest jedno NLTK był zawsze bardzo dobre .
To naprawdę pomaga, czy możemy zobaczyć (fragment) html tym javascript –
Dodane przykład. – KVISH