2013-10-03 9 views
7

Używam skrobaka CrawlSpider i zdefiniowałem skręcony reaktor do kontrolowania mojego robota. Podczas testów indeksowałem witrynę z wiadomościami, zbierając więcej niż kilka GB danych. Głównie interesują mnie najnowsze opowiadania, więc szukam sposobu na ograniczenie liczby żądanych stron, bajtów lub sekund.Złomowanie: Ograniczenie liczby bajtów żądania lub żądania

Czy istnieje powszechny sposób zdefiniować limit

  • request_bytes
  • request_counts lub
  • czasie wykonywania sekund?

Odpowiedz

16

W scrapy jest klasa scrapy.contrib.closespider.CloseSpider. Można zdefiniować zmienne CLOSESPIDER_TIMEOUT, CLOSESPIDER_ITEMCOUNT, CLOSESPIDER_PAGECOUNT i CLOSESPIDER_ERRORCOUNT.

Pająk zamyka się automatycznie, gdy spełnione są warunki: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

+0

czy istnieje sposób CLOSESIPDER_PAGECOUNT można ustawić dynamicznie dla każdego pająka? –

+1

@ImanAkbari: Utwórz poprawne pytanie dotyczące problemu. – Jon

Powiązane problemy