Próbuję pobrać tekst z dokumentów HTML za pomocą BeautifulSoup. W bardzo istotnym dla mnie przypadku wynik jest dziwny i interesujący: po pewnym czasie zupa jest pełna dodatkowych spacji w tekście (spacja oddziela każdą literę od następnej). Próbowałem przeszukać sieć, aby znaleźć powód, ale spotkałem się tylko z wiadomościami na temat przeciwnego błędu (bez spacji).BeautifulSoup zwraca nieoczekiwane dodatkowe spacje
Czy masz sugestie lub wskazówki, dlaczego tak się dzieje i jak rozwiązać ten problem ?.
Jest to bardzo prosty kod, który stworzył:
from bs4 import BeautifulSoup
import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup
I to jest linia podjęta na podstawie wyników, linia, gdzie ten problem zaczynają się pojawiać:
value = \” Giuseppe labbate oGM? nie vorremmo nuovi Uccelli chiamati lontre \ "> < wejście onmouseover = \" Tip (”< centralne terclass = \ \ '_ tytuł filmu \ \' > <b> G iuseppelabbateo g m? N O N v O r r e M O N U O V i U c c e l l i c h i a M a t i l O n t r e <
Dlaczego drukujesz "ultrasoup"? Czy nie powinien to być "zupa"? – svineet
Ten sam problem tutaj z innej strony internetowej. Nadal staram się dowiedzieć, czy jest to problem z BeautifulSoup czy leżącym u jego podstaw lxml. Oprogramowanie działa bez problemów w 32-bitowym Pythonie i kończy się niepowodzeniem z 64-bitową wersją. – Matthias
Przepraszam za "ultrasoup", tylko mały błąd. Oczywiście właściwym kodem była "print soup" –