Jestem nowy Scrapy i co próbuję zrobić, to zrobić robota, który będzie tylko się linki wewnątrz elementu HTML na danym start_urls
Jak mogę powiedzieć Scrapy, aby indeksował tylko linki wewnątrz Xpath?
Tylko jako przykład powiedzmy, że chcę tylko robot, aby przejść koryta aukcje Airbnb po start_urls
ustawiony https://www.airbnb.com/s?location=New+York%2C+NY&checkin=&checkout=&guests=1
Zamiast indeksowania wszystkich linków w URL chcę po prostu indeksować linki wewnątrz XPath //*[@id="results"]
Obecnie używam następujący kod do indeksowania wszystkich linków, w jaki sposób Dostosowuję go do indeksowania tylko //*[@id="results"]
from scrapy.selector import HtmlXPathSelector
from tutorial.items import DmozItem
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
class BSpider(CrawlSpider):
name = "bt"
#follow = True
allowed_domains = ["mydomain.com"]
start_urls = ["http://myurl.com/path"]
rules =(Rule(SgmlLinkExtractor(allow =()) ,callback = 'parse_item', follow=True),)
def parse_item(self, response):
{parse code}
Każda wskazówka w dobrym kierunku zostanie doceniona, Dzięki!
Dzięki! to było to, z jakiegoś powodu nie mogłem znaleźć nic, kiedy szukałem w Google ... łatwo było przejść od razu do dokumentów. – JordanBelf