Crawler internetowy - Ignoruj plik Robots.txt?

Niektóre serwery mają plik robots.txt w celu zatrzymania przeszukiwania stron internetowych przez roboty indeksujące. Czy istnieje sposób, aby robot indeksujący zindeksował plik robots.txt? Używam Mechanize dla Pythona.Crawler internetowy - Ignoruj plik Robots.txt?

Źródło

2011-12-05 Craig Locke

Jeśli to zrobisz, prawdopodobnie wystąpią problemy prawne –

Nie rób tego. –

To jest złe, ponieważ jest to uzasadnione pytanie. Jednak jest to zły pomysł. –

documentation dla mechanize ma ten przykładowy kod:

br = mechanize.Browser() 
.... 
# Ignore robots.txt. Do not do this without thought and consideration. 
br.set_handle_robots(False)

który robi dokładnie czego chcesz.

Źródło

2011-12-05 14:10:33

Sugeruję zgłoszenie problemu na [oznaczenie tego pytania] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication- for-experimentation) jeszcze raz na metę. Wydaje się, że istnieją różne opinie na temat podejrzeń o naruszenie praw autorskich, a ostateczna odpowiedź może pomóc. – NullUserException

@NullUser zrobi. Spróbuję zebrać razem w jednym miejscu wszystkie sprzeczne porady, jakie miałem, i sprawdzić, czy nie wszyscy możemy dojść do wspólnego punktu widzenia! –

This wygląda to, czego potrzebujesz:

from mechanize import Browser 
br = Browser() 

# Ignore robots.txt 
br.set_handle_robots(False)

ale wiesz co robisz ...

Źródło

2011-12-05 14:09:31 eumiro

Crawler internetowy - Ignoruj ​​plik Robots.txt?

Odpowiedz

Powiązane problemy

Crawler internetowy - Ignoruj plik Robots.txt?