2011-12-05 8 views
11

Niektóre serwery mają plik robots.txt w celu zatrzymania przeszukiwania stron internetowych przez roboty indeksujące. Czy istnieje sposób, aby robot indeksujący zindeksował plik robots.txt? Używam Mechanize dla Pythona.Crawler internetowy - Ignoruj ​​plik Robots.txt?

+3

Jeśli to zrobisz, prawdopodobnie wystąpią problemy prawne –

+3

Nie rób tego. –

+8

To jest złe, ponieważ jest to uzasadnione pytanie. Jednak jest to zły pomysł. –

Odpowiedz

26

documentation dla mechanize ma ten przykładowy kod:

br = mechanize.Browser() 
.... 
# Ignore robots.txt. Do not do this without thought and consideration. 
br.set_handle_robots(False) 

który robi dokładnie czego chcesz.

+0

Sugeruję zgłoszenie problemu na [oznaczenie tego pytania] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication- for-experimentation) jeszcze raz na metę. Wydaje się, że istnieją różne opinie na temat podejrzeń o naruszenie praw autorskich, a ostateczna odpowiedź może pomóc. – NullUserException

+0

@NullUser zrobi. Spróbuję zebrać razem w jednym miejscu wszystkie sprzeczne porady, jakie miałem, i sprawdzić, czy nie wszyscy możemy dojść do wspólnego punktu widzenia! –

8

This wygląda to, czego potrzebujesz:

from mechanize import Browser 
br = Browser() 

# Ignore robots.txt 
br.set_handle_robots(False) 

ale wiesz co robisz ...