Jaki jest najlepszy język skriningu ekranu?

Witam Chcę utworzyć aplikację na komputer (C# prob), która przechwytuje lub manipuluje formularzem na stronie internetowej innej firmy. Zasadniczo wprowadzam moje dane w formularzu w aplikacji komputerowej, przechodzę do strony trzeciej i za pomocą skryptu lub cokolwiek innego w tle wprowadzam moje dane (w tym mój login) i klikam przycisk przesyłania dla mnie.I po prostu chcesz uniknąć ładowania przeglądarki!Jaki jest najlepszy język skriningu ekranu?

Nie robiąc dużo (żadnych!) Pracy w tej dziedzinie zastanawiałem się, czy język skryptowy, taki jak perl, python, ruby itp., Pozwoliłby mi na takie? Lub po prostu zrobić to wszystkie skrobanie przy użyciu C# i .net? Który z nich jest najlepszy?

Myślałem, że skrypt może wymagać podpięcia w tym samym skrypcie czegoś z aplikacji na różnych platformach (np. Symbian mobile, gdzie nie byłbym w stanie rozwinąć go w języku C#, tak jak ja w wersji na komputery).

To nie jest aplikacja internetowa, w przeciwnym razie mogę równie dobrze korzystać z oryginalnej witryny. Rozumiem, że to wszystko brzmi bezcelowo, ale automatyzacja dla tej konkretnej formy byłaby dla mnie oszczędna.

Źródło

2009-04-17 Anonymous

To jest pytanie dotyczące skrobania w Internecie, a nie skrobania ekranu. Odśwież to, proszę. –

Dodano tag skrobaczki internetowej. Nie usunięto tagu zgrywania ekranu. –

IMO Perl ma wbudowane funkcje wyrażania regularnego i zdolność do manipulowania tekstem, co czyni go dobrym pretendentem do skrobania ekranu.

Źródło

2009-04-17 12:06:22 Galwegian

PHP jest dobrym kandydatem ze względu na jego dobrą Perl-Compatible Regex support i cURL library.

Źródło

2009-04-17 12:09:17

C# jest więcej niż odpowiednia dla Twojego ekranu skrobanie potrzeb. Funkcja Regex firmy .NET jest naprawdę fajna. Jednak przy tak prostym zadaniu trudno będzie znaleźć język, który nie rób tego, co chcesz stosunkowo łatwo. Biorąc pod uwagę, że już programujesz w C#, powiedziałbym, że trzymaj się tego.

Wbudowana funkcja skrobania ekranu jest również na najwyższym poziomie.

Źródło

2009-04-17 12:10:10

Nie zapomnij spojrzeć na BeautifulSoup, jest wysoce zalecane.

Zobacz na przykład options-for-html-scraping. Jeśli chcesz wybrać język programowania dla tego zadania, powiedziałbym: Python.

Bardziej bezpośrednie rozwiązanie tego problemu, patrz: twill, prosty język skryptowy do przeglądania stron internetowych.

Źródło

2009-04-17 12:16:48 gimel

Używam C# do skrobania. Zobacz pomocny pakiet HtmlAgilityPack. Do analizowania stron używam XPATH lub wyrażeń regularnych. .NET może również łatwo obsługiwać pliki cookie, jeśli tego potrzebujesz.

Napisałem małą klasę, która zawiera wszystkie szczegóły dotyczące tworzenia WebRequest, wysyłania, oczekiwania na odpowiedź, zapisywania plików cookie, obsługi błędów sieciowych i retransmisji itd. - efekt końcowy jest taki, że w większości sytuacji Mogę po prostu wywołać "GetRequest \ PostRequest" i odzyskać dokument HtmlDocument.

Źródło

2009-04-17 13:16:37 Hermit

można spróbować przy użyciu .NET HTML Agility dodatku:

http://www.codeplex.com/htmlagilitypack

„To jest zwinny parser HTML, który buduje odczytu/zapisu DOM i obsługuje zwykły XPATH lub XSLT (faktycznie don 'T MUSISZ zrozumieć XPATH i XSLT, aby go użyć, nie martw się ...) Jest to biblioteka kodu .NET, która pozwala analizować pliki HTML "out of the web" .Parser jest bardzo tolerancyjny z "prawdziwymi świat "źle skonstruowany HTML. Model obiektowy jest bardzo podobny do tego, który proponuje System.Xml, ale do dokumentów HTML (lub strumieni)."

Źródło

2009-04-17 13:30:15

Albo trzymać z WebClient w C# i pewnych manipulacji smyczkowych.

Źródło

2009-04-17 13:34:39

Ruby jest dość wielki! ... spróbować jej hpricot/mechanizacji

Źródło

2009-04-17 13:38:27 Vic

Groovy jest bardzo dobra.

Przykład : http://froth-and-java.blogspot.com/2007/06/html-screen-scraping-with-groovy.html

Groovy i HtmlUnit to również bardzo dobry mecz: http://groovy.codehaus.org/Testing+Web+Applications Htmlunit będzie symulować pełną przeglądarkę z obsługą Javascript.

Źródło

2009-04-18 17:13:04

HTML Agility Pack (c#)

XPath jest borked, drogę html jest czyszczony, aby xml zgodny będzie spadać tagi i trzeba regulować ekspresję aby zmusić go do pracy.
prosty w użyciu

Mozilla Parser (Java)

Stałe wsparcie XPath
trzeba ustawić zmienne środowisko zanim będzie działać co jest ból
odlewania między org.dom4j.Node i org.w3c.dom.Node, aby uzyskać różne właściwości jest prawdziwy ból
umiera na niestandardowym html (0.3 poprawki e)
najlepszym rozwiązaniem dla XPath
problemy z dostępem do danych na węzłach w liście węzłów

użyć for (int i = 1; i < = list_size; i ++), aby ominąć że

Beautiful Soup (Python)

nie mam dużego doświadczenia, ale oto co znalazłem

brak wsparcia XPath
ładny interfejs pathing html

Wolę Mozilla HTML Parser

Źródło

2009-04-24 16:36:21

I drugi zalecenie dla Pythona (lub Piękne Soup). Obecnie pracuję nad małym projektem przeskanowania ekranu przy użyciu Pythona, a automatyczna obsługa pythona 3, np. Uwierzytelnianie plików cookie (poprzez CookieJar i urllib) znacznie upraszcza. Python obsługuje wszystkie bardziej zaawansowane funkcje, których możesz potrzebować (np. Wyrażeń regularnych), a także ma możliwość szybkiego obsługiwania projektów takich jak ten (nie ma zbyt dużego nakładu pracy przy rozwiązywaniu problemów o niskim poziomie). Jest także stosunkowo wieloplatformowy.

Źródło

2009-04-29 07:30:12 Zxaos

Używamy Groovy z NekoHTML. (Zwróć uwagę, że teraz możesz uruchomić Groovy na Google App Engine.)

Oto przykład, runnable kod na blogu Keplar:

Better competitive intelligence through scraping with Groovy

Źródło

2010-01-21 09:21:50

Spójrz na HP Web Language (dawniej WEBL).

http://en.wikipedia.org/wiki/Web_Language

Źródło

2010-12-03 18:23:01 Steve