To scrapy domyślnego Dupefilter
klasa metoda request_seen
Scrapy - Pobieranie obiektu pająk w dupefilter
class RFPDupeFilter(BaseDupeFilter):
def request_seen(self, request):
fp = self.request_fingerprint(request)
if fp in self.fingerprints:
return True
self.fingerprints.add(fp)
if self.file:
self.file.write(fp + os.linesep)
Realizując własny dupefilter. Nie mogę pobrać obiektu z tej klasy, w przeciwieństwie do innego oprogramowania pośredniczącego do scrapy. Czy jest jakiś sposób, aby się dowiedzieć, który to obiekt jest ? więc mogę go spersonalizować za pomocą pająka na pająku?
Nie mogę również zaimplementować oprogramowania pośredniego, które odczytuje adresy URL i umieszcza je na liście, sprawdzając duplikaty zamiast niestandardowego filtru dwustronnego. To dlatego, że muszę wstrzymać/wznowić indeksuje i potrzebują scrapy przechowywać żądania odcisk domyślnie używając JOBDIR
ustawienie