Dlaczego funkcja urllib.urlopen.read() nie odpowiada kodem źródłowym?

Próbuję pobrać następującą stronę internetową:Dlaczego funkcja urllib.urlopen.read() nie odpowiada kodem źródłowym?

import urllib 
urllib.urlopen("http://www.gallimard-jeunesse.fr/searchjeunesse/advanced/(order)/author?catalog[0]=1&SearchAction=1").read()

Wynik nie odpowiada temu, co widzę podczas inspekcji kodu źródłowego strony sieci Web przy użyciu przeglądarki Google Chrome dla przykładu.

Czy możesz mi powiedzieć, dlaczego tak się dzieje i jak mogę poprawić swój kod, aby przezwyciężyć ten problem?

Dziękuję za pomoc.

Źródło

2012-09-17 Nikolay Nikolov

Jakie są różnice? –

Witam, urllib.urlopen.read() daje mi na przykład w organizmie: ' \ n

\ n' która jest zbyt mała informacja dotycząca tego, co znajduje się na stronie. –

Zobacz odpowiedź Srikara.Strona jest generowana dynamicznie przy użyciu javascript. Klucz znajduje się w "Album1.EcritElement (0)". –

co otrzymujesz od urlopen jest surowy strona czyli nie jest wykonywana javascript css nie jest używana; gdzie to, co dostajesz z Chrome (lub innych przeglądarek), to końcowa strona internetowa zawierająca wykonywalny javascript (który może zmieniać HTML), rendering css itd., z których wszystkie nie występują w urlopen ...

Z tego powodu różnica, nadzieję, że to jest jasne

Źródło

2012-09-17 20:51:13

Czy widok * źródła * Chrome zmienia się, gdy DOM jest manipulowany? Firefox nie. – delnan

@delnan OP nie mówi wprost, że używa View Source (które się nie zmienia) zamiast Inspect Element (co robi). –

@SrikarDzięki, czego powinienem użyć zamiast urlopuen, aby następnie przetworzyć końcową stronę WWW? –

również niektóre strony mają tak zwany przełącznik przeglądarki, która może prowadzić do innego źródła są pokazane przy użyciu różnych przeglądarek (np pokazać światła wersji dla przeglądarek mobilnych).

Zobacz, jak zmienić User-Agent na "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, jak Gecko) Chrome/21.0.1180.89 Safari/537.1" (który jest w rzeczywistości moim User-Agentem).

Źródło

2012-09-17 21:01:44 sqrtsben

możesz użyć python Selenium, aby rozwiązać swój problem. Oto przykładowy kod.

from selenium import webdriverr 
url = "http://www.gallimard-jeunesse.fr/searchjeunesse/advanced/(order)/author?catalog[0]=1&SearchAction=1" 
browser = webdriver.Firefox() 
browser.get(url) 
sleep(10) 
all_body_id_html = browser.find_element_by_id('body') # you can also get all html

potem na swoją reszta prac według swojego wyboru kilka przykład z instancji przeglądarki

def login(user='ssdf', password="cisin123"): 
content = browser.find_element_by_id('content') 
content.find_element_by_xpath('.//tbody/tr[2]//input[contains(@class,"textbox")]').send_keys(user) 
content.find_element_by_xpath('.//tbody/tr[3]//input[contains(@class,"textbox")]').send_keys(password) 
content.find_element_by_css_selector(".button").click()

Źródło

2014-01-22 07:12:14

chociaż drugi komentarz odpowiada na podstawowe pytanie "dlaczego?", Tylko ta odpowiedź podpowie, jak rozwiązać rzeczywisty problem. – rbp

Brzmi jak chcesz biblioteki, które mogą działać jak przeglądarka i uruchomić skrypt dla Ciebie , a następnie podać wynikowy kod źródłowy. Wiatrak powinien być w stanie zrobić to za Ciebie. (http://www.getwindmill.com/)

Jest dobry artykuł o tym, jak wykorzystać go do tego, co chcesz tutaj:
http://www.packtpub.com/article/web-scraping-with-python

Źródło

2014-01-23 02:01:07 Kevin

Można użyć selen z Firefox do rozwiązywania problemu, ale może nie być odpowiednie w wielu przypadkach gdy przeglądarka wyświetla się za każdym razem, gdy uruchamiasz kod. Innym pomysłem jest użycie bezgłowego broswer'a, takiego jak PhantomJS.

Najlepszym sposobem na to jest do korzystania z biblioteki Mechanize. Zamontuj mechanize za pomocą pip.

pip install mechanize

Następnie można użyć następującego kodu:

import mechanize 

mb = mechanize.Browser() 
mb.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 
mb.set_handle_robots(False) 
url = "http://www.gallimard-jeunesse.fr/searchjeunesse/advanced/(order)/author?catalog[0]=1&SearchAction=1" 
response = mb.open(url).read() 
print response

Zapewnia również opcję skryptów snu i wykonawczych. Można je czytać w documentation.

Źródło

2014-01-26 05:07:26

Dlaczego funkcja urllib.urlopen.read() nie odpowiada kodem źródłowym?

Odpowiedz

Powiązane problemy