2011-10-16 16 views
5

Możemy powiedzieć botom, aby przeszukiwały lub nie indeksują naszej witryny w robocie.txt. Z drugiej strony możemy kontrolować szybkość indeksowania w Google Webmasterzy (ile Google bot indeksuje witrynę). Zastanawiam się, czy możliwe jest ograniczenie aktywności robotów przez robots.txtCzy można kontrolować prędkość indeksowania przez plik robots.txt?

Mam na myśli akceptowanie botów do indeksowania stron, ale ograniczanie ich obecności do czasu, stron lub rozmiaru!

Odpowiedz

2

Nie, że znalazłem. Robots.txt to miejsce do umieszczania katalogów lub plików, które chcesz włączyć lub wyłączyć. Jeśli był sposób, to jeszcze nie jest standardowy. Pamiętaj, że ktokolwiek tworzy boty, decyduje, czy respektować plik robots.txt, czy nie wszystkie boty ("złe boty") szanują ten plik.

Obecnie, jeśli istniały ustawienia ograniczające szybkość indeksowania, czas spędzany w witrynie itp., Byłby on oparty na bocie przez bota i nie byłby standaryzowany w wartościach pliku robots.txt.

Więcej informacji: http://www.robotstxt.org/robotstxt.html

1

Nie, plik robots.txt może jedynie określić, które strony nie chcą być indeksowane i jakie użytkownik środki te reguły stosuje się także. Z plikiem nie można zrobić nic więcej.

Niektóre witryny korzystają z dyrektyw Allow i Sitemap, ale nie wydają się być prawidłowymi dyrektywami zgodnie z oficjalną stroną internetową, mimo że niektóre roboty mogą je szanować.

5

Istnieje jedna dyrektywa, której można użyć w pliku robots.txt, jest to "opóźnienie indeksowania".

przykład: niska opóźnienia: 5

Znaczenie roboty należy przeszukiwania nie więcej niż jednej strony na 5 sekund. Ale ta dyrektywa nie jest oficjalnie wspierana przez robots.txt, o ile wiem.

Istnieje również kilka robotów, które w rzeczywistości nie pobierają pliku robots.txt. Więc nawet jeśli nie masz dostępu do niektórych stron, nadal mogą zostać zindeksowane przez niektóre roboty, oczywiście nie takie jak Google.

Baidu na przykład może zignorować plik robots.txt, ale nie jest to na pewno.

Nie mam oficjalnego źródła tych informacji, więc możesz go po prostu Google.

+1

Ostatnio słyszałem, Googlebot ignoruje Crawl-delay, więc nie będzie to faktycznie pomoc dla Google. Will jednak dla kilku innych botów. Bez informacji o tym, dla których robotów działa, ta odpowiedź jest raczej niekompletna. – derobert

+2

Więcej informacji na temat 'Crawl-Delay' można znaleźć w odpowiedzi na to pytanie: http://stackoverflow.com/questions/17377835/robots-txt-what-jest-profil -format-dla-dla-dla-dla-multiple -user-agent –

+1

Opóźnienie indeksowania nie jest częścią standardu, ale niektóre boty go szanują: https://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive – nmit026

0

wiem, że to jest bardzo stare pytanie, ale chciałem dodać, że zgodnie z dokumentacją google tutaj jest oficjalna odpowiedź:

Można generalnie dostosować ustawienia szybkości indeksowania w swoim Google Narzędzia dla webmasterów konto.

za: https://developers.google.com/webmasters/control-crawl-index/docs/faq#h04

Od wewnątrz webmasterów-narzędzi można wykonać następujące kroki:

  1. Na stronie głównej Search Console kliknij witrynę, którą chcesz.

  2. Kliknij ikonę koła zębatego, a następnie Ustawienia witryny.

  3. W sekcji Szybkość przeszukiwania wybierz żądaną opcję, a następnie ogranicz szybkość indeksowania według potrzeb.

Nowa szybkość indeksowania będzie ważna przez 90 dni.

ref: google support question

+0

Ustawiam szybkość indeksowania, która mówi, że jest ważna przez miesiąc, a nie 90 dni. – Sharky

+0

@Sharky masz na myśli Google nie zachowuje ich dokumenty zostały zaktualizowane? :-) – john

Powiązane problemy