13

Czy ktoś wie o sposobie programowego pobierania obrazów z Wikimedia Commons bez rejestracji konta Bot? Wygląda na to, że jedynym sposobem uzyskania zgody na konto Bot jest dodanie lub edycja informacji już na Wikimedia. Jeśli spróbujesz pobrać dowolne obrazy, bez konta bota, korzystając z niektórych bibliotek api otrzymasz komunikaty o błędach zamiast obrazów. Wygląda na to, że blokują osoby, które nie przychodzą z przeglądarki? Ktoś jeszcze ma z tym doświadczenie? Czy coś mi umyka?Pobieranie obrazów z Wikimedia Commons

Odpowiedz

3

Spróbuj dokładnie wyjaśnić, co chcesz zrobić? I co wypróbowałeś? Jaki komunikat o błędzie dostałeś? Nie jesteś bardzo jasny ...

Jakie biblioteki próbujesz? Jeśli nie jesteś agresywny, nie ma ograniczeń w pobieraniu treści WM. Nigdy nie słyszałem o żadnych ograniczeniach. Niektórzy użytkownicy są zabronieni edycji, aby uniknąć głupiego spamowania, ale tak naprawdę, nigdy nie słyszałem o pobieraniu ograniczeń.

Jeśli próbujesz zeskrobać ogromną liczbę zdjęć, pobierając je przez Commons, robisz to źle (tm). Jeśli próbujesz zdobyć kilka obrazów, w dowolnym miejscu od 10 do 200, powinieneś być w stanie napisać przyzwoite narzędzie w kilku linijkach kodu, pod warunkiem, że szanujesz wymóg dławienia: kiedy API powie ci, aby zwolnić, jeśli tego nie zrobisz, sysadmins prawdopodobnie cię wyrzucą.

Jeśli potrzebujesz pełnego zrzutu obrazu, (mówimy o kilku TB), spytaj o numer wikitech-l. Torrenty były dostępne, gdy było ich mniej, teraz jest to bardziej skomplikowane, ale nadal jest to doable.

Informacje o kontach bota. Jak głęboko zaglądałeś do systemu? Potrzebujesz konta bota dla szybkich, nienadzorowanych zmian. Przywileje botów otwierają także kilka udogodnień, takich jak zwiększone rozmiary zapytań. Ale pamiętaj: konto bota? to po prostu rozszerzone konto użytkownika. Czy próbowałeś już używać czegokolwiek z klasycznym kontem?

+1

Dzięki, to jest pomocne. Mam stronę o roślinach i chciałbym dołączyć kilka zdjęć z WikiMedia Commons. Wysłałem zapytanie dotyczące http://toolserver.org/~daniel/WikiSense/CategoryIntersect.php, aby uzyskać listę obrazów w danej kategorii, a następnie uruchomiono inne zapytanie dotyczące http://toolserver.org/~magnus/commonsapi.php, aby uzyskać metadane dotyczące każdego obrazu. Następnie użyłem urllib.urlretrieve w skrypcie Pythona, aby uzyskać rzeczywisty obraz. Po prostu spróbowałem go ponownie i działa, więc robi wget. Hmmm, mogłem mieć błąd w tworzeniu adresu URL. – tomvon

+0

Nie szukam kompletnego zrzutu, tylko kilka zdjęć. Chciałbym także stworzyć wtyczkę Wordpress, która pozwoli Ci przeszukiwać WC i dodawać łatwiejsze obrazy do twojej strony (z właściwą atrybucją). Czy wiesz, gdzie są informacje na temat ograniczeń przepustnicy? W WC zrobiłem dość rozległą lekturę, ale nie pamiętam, żeby widziałem coś na temat limitów. Z pewnością chcę przestrzegać warunków użytkowania. – tomvon

+0

Zobacz http://www.mediawiki.org/wiki/Manual:Maxlag_parameter dla dławienia. Zauważ, że jest to zalecenie, więc jeśli nigdy nie widziałeś błędu "maxlag" lub zablokowanych/autoblokowanych/ratelimited, prawdopodobnie nigdy nie zostałeś dławiony lub zablokowany. – NicDumZ

1

Zauważ, że kiedyś było problem z używaniem LWP: nie jest idealogiczny, jest to praktyczne, agenci mogą tworzyć ogromne obciążenia na już rozciągniętych serwerach. Istnieją rozsądne strategie, które użytkownicy agentów mogą zastosować, aby zmniejszyć obciążenie - zapytaj na stronie www.mediawiki.org, lub pl: Village pump - Technical

Powiązane problemy