Na przykład miałem stronę "www.example.com"
Właściwie chcę skrobać html tej strony, zapisując do lokalnego systemu. więc do testowania i zapisać tę stronę na moim pulpicie jako example.html
skrobanie pliku z html zapisanego w lokalnym systemie
Teraz miałem napisany kod pająk na to jak poniżej
class ExampleSpider(BaseSpider):
name = "example"
start_urls = ["example.html"]
def parse(self, response):
print response
hxs = HtmlXPathSelector(response)
Ale kiedy uruchomić powyższy kod otrzymuję ten błąd jak poniżej
ValueError: Missing scheme in request url: example.html
Wreszcie moja intencją jest, aby zeskrobać plik example.html
który składa się z kodu www.example.com
html zapisany w moim systemie lokalnym
Może ktoś zasugerować mi, w jaki sposób przypisać ten plik example.html w start_urls
z góry dzięki
Można włączyć oprogramowanie pośredniczące HTTP Cache, które zostanie zapisane na dysku twardym. Zasadniczo można powtórzyć poprzedni cykl skrobania, w zależności od ustawionego limitu czasu dla oprogramowania pośredniego HTTP Cache. –
@Sjaak Trekhaak: Dzięki za odpowiedź na pytanie, możesz podać mi przykład, aby jej pomocna była –
Nie jestem pewien, ale możesz spróbować: 'start_urls = [" file: /// home/local/cname/username/project/scrapy_project_modules/example/exampl e.html "]' – warvariuc