2011-02-01 21 views
8

Załóżmy, że źródło danych ustawia wąską przepustnicę opartą na IP. Czy skrobaczka internetowa mogłaby pobrać dane, gdyby przepustnica zaczęła odrzucać ich żądania już w 1% pobieranych danych?Czy skrobak może ominąć dobrą ochronę przepustnicy?

Jedyną techniką, która mogłaby mi się przydać przy użyciu hakera, byłby jakiś system proxy. Ale wygląda na to, że pośrednicy (nawet jeśli szybko) w końcu wszyscy osiągną przepustnicę.

Update: Niektórzy ludzie niżej wymienionych dużych sieci proxy jak Yahoo Pipes i Tora, ale nie mógł te zakresy IP lub węzły wyjściowe znane są na czarnej liście, jak również?

Odpowiedz

7

Lista tysięcy lub poxies może być skompilowana dla FREE. Adresy IPv6 można wynająć za grosze. Do diabła, osoba atakująca mogłaby wystartować z instancją Amazon EC2 micro za 2-7 centów na godzinę.

A chcesz powstrzymać ludzi przed skrobaniem witryny? Internet nie działa w ten sposób i mam nadzieję, że nigdy tego nie zrobi.

(Widziałem, że serwery IRC wykonują skanowanie portów na klientach, aby sprawdzić, czy otwarte są następujące porty: 8080,3128,1080. Istnieją jednak serwery proxy, które używają różnych portów i istnieją również uzasadnione powody do uruchomienia serwera proxy lub aby te porty były otwarte, tak jak w przypadku serwera Apache Tomcat, możesz go podnieść, używając YAPH, aby sprawdzić, czy klient uruchamia serwer proxy, co w efekcie użyłoby atakującego przeciwko nim;)

0

Słyszałem o ludziach używających Yahoo Pipes do robienia takich rzeczy, zasadniczo używając Yahoo jako proxy do wyciągania danych.

+0

Nadal jednak czy IP nie zostanie ostatecznie zlikwidowana? – babonk

+1

@babonk - prawdopodobnie, ale Yahoo ma wiele adresów IP ... –

2

Ktoś używający Tor będzie przeskakiwał adresy IP co kilka minut. Kiedyś uruchamiałem stronę internetową, na której był to problem, i uciekałem się do blokowania adresów IP znanych węzłów wyjściowych Tora, gdy wykryto nadmierne skrobanie. Możesz to zaimplementować, jeśli znajdziesz regularnie aktualizowaną listę węzłów wyjściowych Tora, na przykład: https://www.dan.me.uk/tornodes

+1

Link tor_blacklist.txt został zastąpiony przez reklamę. Ta strona https://www.dan.me.uk/tornodes oferuje bezpośredni link https://www.dan.me.uk/torlist/ wszystkich węzłów wyjściowych TOR aktualizowanych co 30 minut. –

+0

dzięki, zaktualizowane –

0

Może spróbuj uruchomić skrobak w instancjach amazon ec2. Za każdym razem, gdy jesteś dławiony, uruchom nową instancję (przy nowym IP) i zabij starą.

1

Do wykonania tego zadania można użyć sieci indeksującej P2P. Dostępnych będzie wiele adresów IP i nie będzie problemu, jeśli jeden z nich zostanie zdławiony. Ponadto można łączyć wiele instancji klienta, korzystając z konfiguracji proxy, zgodnie z sugestiami z poprzednich odpowiedzi.

Myślę, że można użyć YaCy, sieci przeszukiwaczy wolnych zasobów P2P.

0

To zależy od czasu, w którym osoba atakująca uzyskała dane. Jeśli większość danych jest statyczna, intruz może być zainteresowany uruchomieniem skrobaka na przykład na 50 dni. Jeśli jest na linii DSL, gdzie może zażądać "nowego" adresu IP dwa razy dziennie, limit 1% nie zaszkodzi mu tak bardzo.

Oczywiście, jeśli potrzebujesz szybciej danych (ponieważ są one nieaktualne szybko), istnieją lepsze sposoby (użyj instancji EC2, skonfiguruj projekt BOINC, jeśli istnieje zainteresowanie publiczne zebranymi danymi, itp.).

Możesz też mieć schemat Pyramid a la "uzyskaj 10 osób, aby uruchomić mojego robota, a otrzymasz PORN, lub zmuś 100 osób do przemierzenia go, a dostaniesz LOTS OF PORN", ponieważ było to dość powszechne kilka lat temu z reklamą wypełnione strony internetowe. Ze względu na konkurencję (kto otrzymuje najwięcej rekomendacji) możesz szybko zdobyć wiele węzłów uruchamiających swojego robota za bardzo mało pieniędzy.

1

Skrobak, który chce uzyskać informacje, otrzyma informację. Limity czasu, zmiany nazw agentów, serwerów proxy i oczywiście EC2/RackSpace lub dowolne inne usługi w chmurze, które mogą uruchamiać i zatrzymywać serwery z nowymi adresami IP dla pieniędzy.

Powiązane problemy