Czy Facebook zaimplementował jakiegoś robota sieciowego? W ciągu ostatnich kilku dni moja witryna uległa kilkukrotnym awariom, poważnie przeciążona przez IP, które odnalazłem na Facebooku.Facebook Crawler Bot Crashing Site
Próbowałem googling around, ale nie można znaleźć żadnych ostatecznych zasobów dotyczących kontroli robota na Facebooku robota przez robots.txt. Jest odniesienie, dodając następujące:
User-agent: facebookexternalhit/1,1 niska opóźnienia: 5
User-Agent: facebookexternalhit/1,0 niska opóźnienia: 5
User-Agent : facebookexternalhit/* Opóźnienie indeksowania: 5
Nie mogę jednak znaleźć żadnego konkretnego odniesienia do tego, czy bot na Facebooku respektuje plik robots.txt. Według starszych źródeł Facebook "nie indeksuje Twojej witryny". Jest to jednak całkowicie nieprawdziwe, ponieważ moje dzienniki serwera pokazały, że indeksują moją witrynę z kilkunastu adresów IP z zakresu 69.171.237.0/24 i 69.171.229.115/24 z szybkością wielu stron na sekundę.
I nie mogę znaleźć żadnej literatury na ten temat. Podejrzewam, że jest to coś nowego, co FB właśnie zaimplementował w ciągu ostatnich kilku dni, ponieważ mój serwer nigdy wcześniej nie ulegał awarii.
Czy ktoś może doradzić?
Tak, ostatnio coś się zmieniło, ponieważ po raz pierwszy zaczęło awaryjnie działać w ciągu ośmiu lat, które już minęły. Podobno "aktualizują swoją otwartą kartę". Patrząc jednak na nasze strony, które prosi (bardzo stare, niewyraźne strony), zastanawiam się, czy legalny bot wykonuje javascript i uruchamia podobne przyciski, uruchamiając aktualizację FB OpenGraph. To tylko przeczucie ... – Stickley
Podobne pytania: http://stackoverflow.com/questions/11521798/excessive-traffic-from-facebookexternalhit-bot?lq=1 i http://stackoverflow.com/questions/7716531/ facebook-and-crawl-delay-in-robots-txt? lq = 1 – Stickley
Dziękujemy za sugestie i referencje, Hank. W związku z wydarzeniem moja strona była przytłoczona dziesiątkami wejść na sekundę, przez kilka godzin 8 lub 9 listopada. Ale tym razem - to nie był Facebook, ale Amazon. Nagle zaczęło się masowo przeglądać ogromną liczbę linków w witrynie, ale nie wydaje się, aby istniały jakieś oczywiste wzorce - niektóre strony, do których można uzyskać dostęp, są niejasnymi/starymi stronami, a niektóre są najnowszymi. Ciekawe, czy odświeżają własną bazę danych wyszukiwarki. – Andy