Python/BeautifulSoup - jak usunąć wszystkie tagi z elementu?

Jak mogę po prostu usunąć wszystkie tagi z elementu, który znajduję w BeautifulSoup?Python/BeautifulSoup - jak usunąć wszystkie tagi z elementu?

Źródło

2013-04-25 Daniele B

Zakładając, że chce się rozebrać tagi, ale zachować zawartość, zobacz zaakceptowane odpowiedź na to pytanie: Remove a tag using BeautifulSoup but keep its contents

Źródło

2013-04-25 04:31:04 Shaun

wygląda w ten sposób, aby zrobić! takie proste

z tej linii, którą łączą ze sobą wszystkie części tekstu w bieżącym elemencie

''.join(htmlelement.find(text=True))

Źródło

2013-04-25 04:46:12

Można użyć metody rozkładać w BS4:

soup = bs4.BeautifulSoup('<body><a href="http://example.com/">I linked to <i>example.com</i></a></body>') 

for a in soup.find('a').children: 
    if isinstance(a,bs4.element.Tag): 
     a.decompose() 

print soup 

Out: <html><body><a href="http://example.com/">I linked to </a></body></html>

Źródło

2013-10-17 22:37:41 danblack

dlaczego nie ma odpowiedzi Widziałem, jak wspominałem o metodzie unwrap? Lub, jeszcze łatwiej, metoda

http://www.crummy.com/software/BeautifulSoup/bs4/doc/#unwrap http://www.crummy.com/software/BeautifulSoup/bs4/doc/#get-text

Źródło

2014-04-29 00:40:34 Bobby

Z BeautifulStoneSoup poszedł w bs4get_text, to jeszcze prostsze w Python3

from bs4 import BeautifulSoup 

soup = BeautifulSoup(html) 
text = soup.get_text() 
print(text)

Źródło

2015-01-27 02:47:02 shawnl

Jest lepiej używać 'get_text()' zamiast 'getText()'. – SparkAndShine

Dlaczego tak jest? Być może tak jest, ale dobrze byłoby zrozumieć, dlaczego tak się dzieje. –

+11

getText() jest składnią bs3 i nie jest zgodny z pep8. Prawdopodobnie będzie przestarzałe. –

użytkowania get_text(), zwraca cały tekst w dokumencie lub pod tag, jako pojedynczy ciąg znaków Unicode.

Na przykład, usuń wszystkie inne znaczniki skryptów z następującym tekstem:

<td><a href="http://www.irit.fr/SC">Signal et Communication</a> 
<br/><a href="http://www.irit.fr/IRT">Ingénierie Réseaux et Télécommunications</a> 
</td>

Oczekiwany wynik to:

Signal et Communication 
Ingénierie Réseaux et Télécommunications

Oto kod źródłowy:

#!/usr/bin/env python3 
from bs4 import BeautifulSoup 

text = ''' 
<td><a href="http://www.irit.fr/SC">Signal et Communication</a> 
<br/><a href="http://www.irit.fr/IRT">Ingénierie Réseaux et Télécommunications</a> 
</td> 
''' 
soup = BeautifulSoup(text) 

print(soup.get_text())

Źródło

2015-07-20 16:37:08 SparkAndShine

Python/BeautifulSoup - jak usunąć wszystkie tagi z elementu?

Odpowiedz

Powiązane problemy