2011-01-12 13 views
6

Zostałem za zadanie zautomatyzować porównanie inwentarza klienta z kilku niepowiązanych witryn sklepowych. Te witryny sklepowe nie oferują interfejsów API, więc jestem zmuszony napisać robot indeksujący w pythonie, który będzie katalogował i porównywał dostępne produkty i ceny między trzema stronami internetowymi co tydzień.pułapki prawne lub etyczne dla robota sieciowego?

Czy mogę się spodziewać, że adres IP robota zostanie zablokowany lub czy można złożyć skargę na źródło? Wydaje się to dość niewinne (około 500 żądań stron http oddzielonych jedną sekundą na żądanie, wykonywanych raz w tygodniu), ale jest to dla mnie zupełnie nowe terytorium.

Odpowiedz

7

Należy również pamiętać, że niektóre dane są zastrzeżone i są uważane przez ich właścicieli za własność intelektualną. Niektóre witryny, takie jak witryny wymiany walut, wyszukiwarki i narzędzia do śledzenia giełd, szczególnie nie lubią indeksowania swoich danych, ponieważ ich firma sprzedaje właśnie te dane, które indeksujesz.

W Stanach Zjednoczonych nie można same dane o prawach autorskich - tylko sposób formatowania danych. Zgodnie z amerykańskim prawem, pobieranie danych z indeksowaniem jest dopuszczalne, o ile nie przechowujesz ich w oryginalnym formacie (HTML).

Jednak w wielu krajach europejskich dane mogą być chronione prawem autorskim. A sieć to globalna bestia. Ludzie z Europy mogą odwiedzić Twoją witrynę. Co zgodnie z prawem w niektórych krajach oznacza, że ​​prowadzisz interesy w tych krajach. Nawet jeśli jesteś prawnie chroniony w Stanach Zjednoczonych, nie oznacza to, że nie będziesz pozwany w innym miejscu na świecie.

Moja rada to przejść przez stronę i przeczytać o zasadach użytkowania. Jeśli witryna wyraźnie uniemożliwia indeksowanie, nie powinieneś tego robić. I jak wspomniał Jim, szanuj robots.txt.

Z drugiej strony, sądy na całym świecie mają prawny precedens, który sprawia, że ​​wyszukiwarki są legalne. A wyszukiwarki to same żarłoczne roboty sieciowe. Z drugiej strony wygląda na to, że co najmniej co najmniej jedna agencja prasowa pozywa lub próbuje pozwać Google'a za indeksowanie stron internetowych.

Mając powyższe na uwadze, należy bardzo uważać, co robi się z przeszukiwanymi danymi. Powiedziałbym, że prywatny użytek jest OK, o ile nie przeładowujesz serwerów. Ja sam robię to regularnie, aby uzyskać program telewizyjny, itp.

9

Tak, powinieneś (spodziewać się, że zostaniesz zbanowany przez IP za skradanie ekranu w przypadku nieautoryzowanego syndykowania). Co więcej, mniej skrupulatni, bardziej kreatywni właściciele witryn zamiast blokować robota, próbują go rozbić/zmylić, wysyłając zniekształcone dane lub celowo wysyłają fałszywe dane.

Jeśli Twój model biznesowy opiera się na nieautoryzowanym skriningu ekranu, zakończy się niepowodzeniem.

Zwykle w interesie właścicieli witryny jest umożliwienie przeskanowania ekranu, więc możesz uzyskać pozwolenie (prawdopodobnie nie uda się utworzyć stabilnego interfejsu API, chyba że zapłacisz za to dużo pieniędzy) .

Jeśli nie wyrażą Państwo zgody, prawdopodobnie nie powinniście.

Kilka wskazówek:

  • Daj admini autoryzowanych witryn syndykatu mechanizm zadać zatrzymać skrobanie ich strony, w przypadku, gdy bot powoduje ich problemów eksploatacyjnych.Może to być adres e-mail, ale proszę go monitorować.
  • Jeśli nie można skontaktować się z właścicielem witryny, aby uzyskać pozwolenie, upewnij się, że jest dla nich łatwe do kontaktu należy zajdzie taka potrzeba (umieścić adres URL lub adres e-mail w UA ciąg robota)
  • Jasno, jaki jest cel z ekranu-skrobanie jest, i co twoja retencja i inne zasady są.

Jeśli zrobisz to wszystko w dobrej wierze, przejrzyście, prawdopodobnie nie będziesz zablokowany przez człowieka, chyba że zdecyduje, co robisz, jest zasadniczo sprzeczne z ich modelem biznesowym.

Jeśli zachowujesz się w sposób podstępny, płaszczowo-sztyletowy, możesz spodziewać się wrogości.

+2

+1. Spodobała mi się twoja odpowiedź. Wygląda na to, że ktoś próbuje sondować obcą planetę, sygnalizując i przywołując pokój, i może śledzić twoją odpowiedź jako przewodnik! : P –

Powiązane problemy