2013-02-23 21 views
10

Próbuję zeskrobać strony internetowe w skryptach Ruby, nad którymi pracuję. Celem projektu jest pokazanie, które ETF i fundusze inwestycyjne giełdowe są najbardziej zgodne z filozofią inwestowania w wartości.Narzędzia do skrobania stron internetowych/narzędzia dostępne w Ruby

Niektóre przykłady stron, które chciałbym zeskrobać to:

http://finance.yahoo.com/q/pr?s=SPY+Profile 
http://finance.yahoo.com/q/hl?s=SPY+Holdings 
http://www.marketwatch.com/tools/mutual-fund/list/V 

Co web skrobanie narzędzia polecacie dla Ruby i dlaczego? Należy pamiętać, że istnieją tysiące funduszy giełdowych, więc każde narzędzie, którego używam, musi być dość szybkie.

Jestem nowicjuszem w Ruby, ale mam doświadczenie w korzystaniu z lxml do skrobania stron internetowych w Pythonie (https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py). Po pobraniu stron z ponad 5000 magazynów, lxml może je skrobnąć w kilka minut. (Pamiętam, próbując BeautifulSoup ale odrzucając go, ponieważ był zbyt powolny.)

+1

W rzeczywistości finanse Yahoo mają wiele API, powinieneś używać jednego z nich. – pguardiario

Odpowiedz

22

Istnieje tak wiele scraping gems dostępny w Ruby jak Hpricot, Nokogiri i tyle. Polecam Nokogiri, aby zdrapać static web pages. Jeśli zgarniesz dynamic web pages (oznacza to, że wymaga kliknięcia przycisku, przesłania formularza itp.). Polecam Mechanize, która wewnętrznie używa Nokogiri.

+0

Hpricot nie ma już opiekuna. Polecam korzystanie z Nokogiri :) – Jake88

Powiązane problemy