scrapy: konwertuj ciąg html do obiektu HtmlResponse

Mam surowy ciąg html, który chcę przekonwertować na obiekt odpowiedzi HTML na scrapy, aby można było używać selektorów css i xpath, podobnych do scrapy do response. Jak mogę to zrobić?scrapy: konwertuj ciąg html do obiektu HtmlResponse

Źródło

2014-12-05 yayu

Przede wszystkim, jeśli jest to w celach testowych lub debugowania, można użyć Scrapy shell:

$ cat index.html 
<div id="test"> 
    Test text 
</div> 

$ scrapy shell index.html 
>>> response.xpath('//div[@id="test"]/text()').extract()[0].strip() 
u'Test text'

Istnieje different objects available in the shell trakcie sesji, jak response i request.

Lub można utworzyć wystąpienia HtmlResponse class i zapewnić ciąg HTML body:

>>> from scrapy.http import HtmlResponse 
>>> response = HtmlResponse(url="my HTML string", body='<div id="test">Test text</div>') 
>>> response.xpath('//div[@id="test"]/text()').extract()[0].strip() 
u'Test text'

Źródło

2014-12-05 20:04:18 alecxe

dzięki alecxe używam selen ponieważ posiadał jakiejś ajaxiness. Chcę przekonwertować driver.page_source na ten sam obiekt, co rerosne, dzięki czemu mogę ponownie użyć niektórych ekstraktorów (używając selektorów css i xpath) zamiast korzystać z lxml. Myślę, że twoja druga opcja jest tą, której potrzebuję. – yayu

@ yayu wtedy prawdopodobnie nie musisz tworzyć odpowiedzi HTML, ale raczej 'Selectora', zobacz http://stackoverflow.com/questions/18836286/scraping-with-scrapy-and-selenium i http: //stackoverflow.com/questions/17975471/selenium-with-scrapy-for-dynamic-page. Może pomóc. Dzięki. – alecxe

dzięki. Przyjrzę się temu. – yayu

scrapy: konwertuj ciąg html do obiektu HtmlResponse

Odpowiedz

Powiązane problemy