Używam skrobaka CrawlSpider
i zdefiniowałem skręcony reaktor do kontrolowania mojego robota. Podczas testów indeksowałem witrynę z wiadomościami, zbierając więcej niż kilka GB danych. Głównie interesują mnie najnowsze opowiadania, więc szukam sposobu na ograniczenie liczby żądanych stron, bajtów lub sekund.Złomowanie: Ograniczenie liczby bajtów żądania lub żądania
Czy istnieje powszechny sposób zdefiniować limit
- request_bytes
- request_counts lub
- czasie wykonywania sekund?
czy istnieje sposób CLOSESIPDER_PAGECOUNT można ustawić dynamicznie dla każdego pająka? –
@ImanAkbari: Utwórz poprawne pytanie dotyczące problemu. – Jon