2015-07-09 16 views
6

Jak sprawdzić, czy moja witryna jest skrobana?Jak sprawdzić, czy moja strona jest skrobana?

mam kilka punktów ...

  1. Przepustowość sieci zawód, powodując problemy z przepustowością (pasuje jeśli proxy używany).
  2. Podczas sprawdzania wyszukiwanych słów kluczowych nowe odsyłacze pojawiają się w innych podobnych zasobach z tą samą zawartością (pasuje, jeśli używany jest serwer proxy).
  3. Wiele żądań z tego samego adresu IP.
  4. Wysoki poziom żądań z jednego adresu IP. (przy okazji: jaka jest normalna stawka?)
  5. Bezgłowy lub dziwny agent użytkownika (pasuje, jeśli używany jest serwer proxy).
  6. Żądanie z przewidywalnymi (równymi) przedziałami czasu z tego samego adresu IP.
  7. Niektóre pliki pomocy nigdy nie są wymagane, np. favicon.ico, różne pliki CSS i javascript (pasuje, jeśli używany jest serwer proxy).
  8. Sekwencja żądań klienta. Dawny. dostęp do klienta nie jest bezpośrednio dostępny (pasuje, jeśli używany jest serwer proxy).

Czy dodać więcej do tej listy?

Jakie punkty można dopasować/dopasować, jeśli skrobak korzysta z proxy?

+1

pokrewne: [? Można wykryć strona skrobanie] (http://stackoverflow.com/q/6936453) i [Sposobem na wykrycie internetowej skrobania] (http: // stackoverflow.com/q/5372115). Zasadniczo jest to dość trudne do określenia, ponieważ używają różnych podejść do mylenia. – fedorqui

+1

Z własnego doświadczenia - szybkość, z jaką pojedynczy adres IP odwiedza Twoją witrynę, będzie bardzo szeroki w zależności od Twojej witryny. Na przykład kiedyś stworzyłem stronę internetową, którą stworzyłem, że byłoby średnio odwiedzać raz dziennie i wyświetlać tylko kilka stron (ponieważ zamieszczaliśmy informacje tylko raz dziennie). Inne witryny (np. Fora lub dynamicznie aktualizujące strony z dużą ilością informacji zamieszczanych często) mogą wymagać znacznie bardziej przypadkowego wyboru wizyt. Lub jeśli twoja strona internetowa jest spójna, byłoby bardzo nieczęste - może 1-2 dziennie, a następnie odpada. – Sh4d0wsPlyr

+0

Czy możesz wyjaśnić, dlaczego chcesz wykryć skrobaki? Większość witryn jest za nim - skrobanie jest dokładnie tym, jak dostać się do wyszukiwarek. Jeśli masz zamiar go zablokować, czy wypróbowałeś protokół wykluczania robotów? – halfer

Odpowiedz

1

Chciałbym również dodać analizę tego, kiedy wnioski od tych samych osób są składane. Na przykład, jeśli ten sam adres IP żąda tych samych danych o tej samej porze każdego dnia, najprawdopodobniej proces jest wykonywany według automatycznego harmonogramu. Dlatego prawdopodobnie będzie skrobanie ...

Możliwa dodatkowa analiza liczby stron, na które wpłynęła każda sesja użytkownika. Na przykład, jeśli dany użytkownik danego dnia przeglądał każdą stronę w twojej witrynie i uważasz, że jest to niezwykłe, to być może jest to inny wskaźnik.

Wydaje się, że potrzebujesz wielu wskaźników i musisz je zdobyć i połączyć wynik, aby pokazać, kto najprawdopodobniej zgarnie.

+0

dziękuję za "analizę, kiedy są składane wnioski przez tego samego klienta" oraz za sugestię, aby "zdobyć wskaźniki do obliczenia wartości końcowej". –

2

Jako pierwsza uwaga; rozważ, czy warto go udostępnić dla botów na przyszłość. Jeśli jesteś zaindeksowany przez inną firmę/etc, jeśli to informacja, którą chcesz przekazać, tak czy inaczej Twoja witryna jest dla nich wartościowa. Utworzenie interfejsu API znacząco obniżyłoby obciążenie serwera i zapewni 100% jasność osobom, które Cię zaindeksują.

Po drugie, pochodzące z osobistych doświadczeń (przez pewien czas tworzyłem indeksowanie stron internetowych), generalnie można od razu stwierdzić, śledząc przeglądarkę, która przeglądała witrynę. Jeśli używają jednego z automatycznych lub jednego z języków programowania, będzie to wyjątkowo różniło się od przeciętnego użytkownika. Nie wspominając o śledzeniu pliku dziennika i aktualizowaniu pliku .htaccess z zakazem (jeśli tego właśnie szukasz).

Zwykle jest to inne, niż dość łatwe do wykrycia. Powtarzane, bardzo spójne otwieranie stron.

Sprawdź ten drugi wpis, aby uzyskać więcej informacji na temat sposobów radzenia sobie z nimi, a także zastanowić się, jak je zidentyfikować.

How to block bad unidentified bots crawling my website?

+0

dziękuję za ''making API' do wolnego pasma' i 'spójne otwarcie stron' –

Powiązane problemy