Moje pierwsze pytanie tutaj :)Próba zaindeksowania wszystkich linków strony za pomocą scrapy. Ale nie mogę wypisać linków na stronie
Próbowałem zaindeksować moją stronę szkolną pod kątem wszystkich możliwych stron internetowych. Ale nie mogę umieścić linków w pliku tekstowym. Mam odpowiednie uprawnienia, więc to nie jest problem.
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
class hsleidenSpider(CrawlSpider):
name = "hsleiden1"
allowed_domains = ["hsleiden.nl"]
start_urls = ["http://hsleiden.nl"]
# allow=() is used to match all links
rules = [
Rule(SgmlLinkExtractor(allow=()), follow=True),
Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
]
def parse_item(self, response):
x = HtmlXPathSelector(response)
filename = "hsleiden-output.txt"
open(filename, 'ab').write(response.url)
Dlatego skanuję tylko stronę hsleiden.nl. I chciałbym mieć plik response.url do pliku tekstowego hsleiden-output.txt.
Czy jest jakiś sposób, aby to zrobić dobrze?
proszę opisać konkretny problem. Czego oczekujesz? Co się dzieje? – Sheena
Gdybym chciał pożyczyć twój kod, jak mógłbym to nazwać? –