2012-01-29 16 views
7

próbuję uzyskać dostęp do strony Wikipedii tak, aby otrzymać listę stron, i pojawia się następujący błąd:Ustawienie „informacyjny User-Agent string” w getURL

library(RCurl) 
u <- "http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4" 
getURL(u) 
[1] "Scripts should use an informative User-Agent string with contact information, or they may be IP-blocked without notice.\n" 

mam nadzieję dostać się do tej strony poprzez api Wikipedii, ale I am not sure it would work.

I rzeczą jest to, że inne strony są odczytywane bez problemu, na przykład:

u <- "http://en.wikipedia.org/wiki/Wikipedia:Talk" 
getURL(u) 

jakieś sugestie?

dygresja: W ogóle bym raczej nie skrobać strony wiki i przejść przez API, ale obawiam się, że to konkretne strony nie są jeszcze dostępne za pośrednictwem interfejsu API ...

Odpowiedz

13

Według the documentation of RCurl, można określ dodatkowy nagłówek, dodając parametr httpheader:

getURL(u, httpheader = c('User-Agent' = "Informative string with your contact info")) 
+0

Idealny - dziękuję! –

Powiązane problemy