Co to są niektóre narzędzia bazujące na Ruby, które mogą mi pomóc osiągnąć coś podobnego do tego, co robi Scrapy dla Pythona? http://doc.scrapy.org/intro/overview.htmlRubinowa alternatywa dla Scrapy?
Odpowiedz
Jest Mechanize, który jest zbudowany na Nokogiri.
Istnieje Nokigiri oparty na XPath.
Hpricot to kolejne narzędzie.
Istnieje Scrapi oparty na selektorach CSS do wyodrębniania informacji, ale działa on wolniej niż Nokogiri w oparciu o moje testy.
Jest scRUBYt.
Jestem pewien, że są inni, ale to są te, które spotkałem.
Jeśli nie znajdziesz jednego narzędzia, które rozwiąże Twoje problemy, spróbuj skorzystać z bibliotek internetowych, takich jak Anemone, i połącz je z jedną z niskopoziomowych frameworków wymienionych powyżej.
Albo po prostu śmiało i naucz się Pythona. To rozszerzy twoją karmę w świecie programowania.
O ile wiem (nie wiem, Ruby), te moduły to tylko parsery HTML/XML, a nie skrobanie frameworków takich jak Scrapy . – Acorn
@Acorn - to wszystkie skrobiące frameworki. To, czego nie mają, to robot lub pająk. Skrobanie jest prostopadłe do raczkowania. – Anurag
Ale ... raczkowanie jest tylko jednym z aspektów Scrapy. Ma wiele funkcji, które mają zastosowanie do wszelkiego rodzaju skrobania, takich jak elementy i potoki do przechowywania wyników. Narzędzia, które łączysz, wydają się być porównywalne do lxml lub BeautifulSoup, a nie do Scrapy. – Acorn
Można również sprawdzić Anemone
- 1. Rubinowa alternatywa dla typu zwrotu pustego
- 2. Średnia rubinowa na Railsach?
- 3. Serwer proxy dla architektury Scrapy
- 4. Alternatywa dla Androida dla Line2D?
- 5. Alternatywa dla readAsBinaryString dla IE10
- 6. Alternatywa dla Firebuga dla Firefoksa?
- 7. Alternatywa dla supervisora dla docker
- 8. Alternatywa dla servicewrapper dla java?
- 9. Alternatywa dla header_remove
- 10. WinForms: Alternatywa dla SplitContainer?
- 11. Alternatywa dla „switch” oświadczenie
- 12. Alternatywa dla Flex Framework
- 13. Alternatywa dla FogBugz?
- 14. Alternatywa dla $ httpProvider.responseInterceptors
- 15. Alternatywa dla scipy.optimize.curve_fit
- 16. Alternatywa dla FusedLocationProviderApi
- 17. Alternatywa dla pliku CSV?
- 18. Lepsza alternatywa dla CommitMonitor
- 19. Alternatywa dla php tidy?
- 20. Android: Alternatywa dla context.getDrawable()
- 21. Niedroga alternatywa dla Pusher'a
- 22. Alternatywa dla GDI +
- 23. Alternatywa dla Response.End()?
- 24. Bezpłatna alternatywa dla Targetprocess?
- 25. Szybsza alternatywa dla eval?
- 26. Python alternatywa dla zmniejszenia()
- 27. Alternatywa expand.grid dla data.frames
- 28. Alternatywa dla funkcji constexpr
- 29. Alternatywa dla innerHTML?
- 30. alternatywa dla przestarzałego __proto__
może chcesz po prostu dać scrapy strzał. Wydaje się, że ma doskonałą dokumentację i bardzo przyjazne API. Jeśli znasz Rubiego, pobranie Pythona prawdopodobnie nie zajmie Ci więcej niż dzień czy dwa. Są to bardzo podobne języki. – zeekay
@zeekay, masz na myśli [scrappy] (http://rubydoc.info/gems/scrappy/0.3.5/frames)? – Zabba
Nie, zapytał o ruby alternatywę do scrapy, która jest ramową aplikacją Pythona do przeszukiwania witryn internetowych i wyodrębniania danych strukturalnych. Po prostu wskazywałem, że uczenie się Pythona jest łatwe, a równie dobrze mógłby go po prostu użyć (zakładając, że nie znaleziono satysfakcjonującej alternatywy). – zeekay