Nie mogę zaindeksować całej strony, Scrapy tylko indeksuje się na powierzchni, chcę się czołgać głębiej. Byłem w Google przez ostatnie 5-6 godzin i bez pomocy. Mój kod poniżej:Scrapy - Indeksowanie całej witryny
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
from scrapy import log
class ExampleSpider(CrawlSpider):
name = "example.com"
allowed_domains = ["example.com"]
start_urls = ["http://www.example.com/"]
rules = [Rule(SgmlLinkExtractor(allow=()),
follow=True),
Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
]
def parse_item(self,response):
self.log('A response from %s just arrived!' % response.url)
Proszę o pomoc!
Dzięki, Abhiram
Właśnie wypróbowałem twój kod przeciw stackoverflow - mój ip został zbanowany. To na pewno działa! :) – alecxe
@Alexander - Brzmi zachęcająco dla mnie do debugowania więcej :) :) ... Przepraszamy na IP ban mate! –
Naprawdę próbujesz zaindeksować example.com? Wiesz, że to nie jest prawdziwa strona internetowa. –