Złomowanie: Ograniczenie liczby bajtów żądania lub żądania

Używam skrobaka CrawlSpider i zdefiniowałem skręcony reaktor do kontrolowania mojego robota. Podczas testów indeksowałem witrynę z wiadomościami, zbierając więcej niż kilka GB danych. Głównie interesują mnie najnowsze opowiadania, więc szukam sposobu na ograniczenie liczby żądanych stron, bajtów lub sekund.Złomowanie: Ograniczenie liczby bajtów żądania lub żądania

Czy istnieje powszechny sposób zdefiniować limit

request_bytes
request_counts lub
czasie wykonywania sekund?

Źródło

2013-10-03 Jon

W scrapy jest klasa scrapy.contrib.closespider.CloseSpider. Można zdefiniować zmienne CLOSESPIDER_TIMEOUT, CLOSESPIDER_ITEMCOUNT, CLOSESPIDER_PAGECOUNT i CLOSESPIDER_ERRORCOUNT.

Pająk zamyka się automatycznie, gdy spełnione są warunki: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

Źródło

2013-10-03 14:34:49 Jon

czy istnieje sposób CLOSESIPDER_PAGECOUNT można ustawić dynamicznie dla każdego pająka? –

@ImanAkbari: Utwórz poprawne pytanie dotyczące problemu. – Jon

Złomowanie: Ograniczenie liczby bajtów żądania lub żądania

Odpowiedz

Powiązane problemy