Jeśli chcę zeskanować stronę internetową, która wymaga najpierw logowania z hasłem, w jaki sposób mogę rozpocząć skrobanie za pomocą Pythona przy użyciu biblioteki beautifulsoup4? Poniżej przedstawiam, co robię dla stron internetowych, które nie wymagają logowania.Jak zeskrobać stronę, która wymaga logowania przy użyciu Pythona i BeautifulSoup?
from bs4 import BeautifulSoup
import urllib2
url = urllib2.urlopen("http://www.python.org")
content = url.read()
soup = BeautifulSoup(content)
Jak zmienić kod, aby uwzględnić logowanie? Załóżmy, że strona, którą chcę skrobać, jest forum wymagającym logowania. Przykładem jest http://forum.arduino.cc/index.php
'br.form [' username '] =' nazwa użytkownika ' to pierwsza "nazwa użytkownika" nazwa formularza, a druga faktyczna nazwa użytkownika? –
@DanS. Jest to dość późno .. ale dla każdego, kto to widział, tak ... pierwsza nazwa użytkownika jest nazwą pola formularza .. a druga nazwa użytkownika byłaby rzeczywistą nazwą użytkownika, którą wpisałeś w tym polu formularza. –