Niektóre serwery mają plik robots.txt w celu zatrzymania przeszukiwania stron internetowych przez roboty indeksujące. Czy istnieje sposób, aby robot indeksujący zindeksował plik robots.txt? Używam Mechanize dla Pythona.Crawler internetowy - Ignoruj plik Robots.txt?
Odpowiedz
documentation dla mechanize ma ten przykładowy kod:
br = mechanize.Browser()
....
# Ignore robots.txt. Do not do this without thought and consideration.
br.set_handle_robots(False)
który robi dokładnie czego chcesz.
Sugeruję zgłoszenie problemu na [oznaczenie tego pytania] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication- for-experimentation) jeszcze raz na metę. Wydaje się, że istnieją różne opinie na temat podejrzeń o naruszenie praw autorskich, a ostateczna odpowiedź może pomóc. – NullUserException
@NullUser zrobi. Spróbuję zebrać razem w jednym miejscu wszystkie sprzeczne porady, jakie miałem, i sprawdzić, czy nie wszyscy możemy dojść do wspólnego punktu widzenia! –
This wygląda to, czego potrzebujesz:
from mechanize import Browser
br = Browser()
# Ignore robots.txt
br.set_handle_robots(False)
ale wiesz co robisz ...
- 1. Facebook Crawler Bot Crashing Site
- 2. coraz zabronione przez plik robots.txt: scrapy
- 3. Scrapy crawler in Cron job
- 4. parser robots.txt java
- 5. Ignoruj plik DOCTYPE .dtd, ale plik .dtd musi nadal istnieć
- 6. Czy można kontrolować prędkość indeksowania przez plik robots.txt?
- 7. BingBot & BaiduSpider nie szanują robots.txt
- 8. Metatag kontra robots.txt
- 9. svn: ignoruj nie ignoruj xcuserdata
- 10. Przeczytaj formularz internetowy aplikacji internetowej
- 11. AWS Glue Crawler Not Creating Table
- 12. Następujące linki, Scrapbooking web crawler framework
- 13. Serwer internetowy JavaScript?
- 14. php serwis internetowy przykład
- 15. Mock serwis internetowy
- 16. Nginx: inna robots.txt dla domeny alternte
- 17. Składnia pliku robots.txt nie jest zrozumiała
- 18. Django - ładowanie pliku Robots.txt poprzez ogólne widoki
- 19. CVS Ignoruj katalogi
- 20. Ignoruj adresy URL w pliku robot.txt o określonych parametrach?
- 21. Ignoruj SVN zignoruj ... możliwe?
- 22. Jak utworzyć wieloetapowy formularz internetowy?
- 23. Programowanie gniazda a serwis internetowy?
- 24. Jak wdrożyć tłumaczenie na istniejący projekt internetowy?
- 25. Jak przetestować serwis internetowy MTOM z soapUI?
- 26. Ignoruj "Niezamknięty token" w Perlu
- 27. git ignoruj wiele pasujących plików
- 28. Robots.txt: czy ta reguła jest ważna?
- 29. Wiele plików robots.txt dla subdomen w szynach
- 30. jak odrzucać wszystkie dynamiczne linki robots.txt
Jeśli to zrobisz, prawdopodobnie wystąpią problemy prawne –
Nie rób tego. –
To jest złe, ponieważ jest to uzasadnione pytanie. Jednak jest to zły pomysł. –