Chcę użyć R do zeskrobania tej strony: (http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html) i innych, aby uzyskać strzelców i czasy.Jak wyizolować pojedynczy element ze zeskrobanej strony w R
Jak dotąd, jest to, co mam:
require(RCurl)
require(XML)
theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
webpage <- getURL(theURL, header=FALSE, verbose=TRUE)
webpagecont <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpagecont, error=function(...){}, useInternalNodes = TRUE)
a obiekt pagetree zawiera teraz wskaźnik do mojego analizowany html (chyba). Część chcę jest:
<div class="cont")<ul>
<div class="bold medium">Goals scored</div>
<li>Philipp LAHM (GER) 6', </li>
<li>Paulo WANCHOPE (CRC) 12', </li>
<li>Miroslav KLOSE (GER) 17', </li>
<li>Miroslav KLOSE (GER) 61', </li>
<li>Paulo WANCHOPE (CRC) 73', </li>
<li>Torsten FRINGS (GER) 87'</li>
</ul></div>
ale teraz jestem zagubiony, jak je izolować, i szczerze xpathSApply
i xpathApply
mylić beejeebies ze mnie!
Czy ktoś wie, jak sformułować polecenie wyssania elementu z tagów <div class="cont">
?
Bądź ostrożny kiedy robisz takie rzeczy ... W większości przypadków organizacje jak FIFA czy FIBA, NBA itd nie pozwalają na wykorzystanie ich danych - mówiąc prosto: ich dane są ich własnością! Następnym razem podaj jakiś fałszywy kod HTML lub po prostu wskaż jakąś nieszkodliwą stronę! =) – aL3xa