Często potrzebuję wykonać proste skrobanie ekranu do wewnętrznych celów (tj. Usługa stron trzecich, z której korzystam, publikuje raporty tylko za pomocą HTML). Mam co najmniej dwa lub trzy przypadki tego teraz. Mógłbym użyć apache httpclient i utworzyć cały niezbędny skrobanie ekranu, ale zajmuje to trochę czasu. Oto mój zwykły proces:Superszybkie skrobanie ekranów?
- Otwórz Charles Proxy na stronie internetowej i zobacz, co się dzieje.
- Rozpocznij pisanie kodu Java za pomocą Apache HttpClient, przetwarzanie plików cookie, wiele żądań
- użyj kodu Jericho HTML, aby poradzić sobie z parsowaniem kodu HTML.
Chciałbym móc "nagrać sesję" szybko, a następnie sparametryzować rzeczy, które różnią się w zależności od sesji. Wyobraź sobie, że używasz Charlesa, aby pobrać wszystkie żądania HTTP, a następnie sparametryzować odpowiedni ciąg zapytania lub parametry post. Voila Mam skrypt http do wielokrotnego użytku.
Czy jest coś, co już to robi? Pamiętam, że kiedy pracowałem w dużej firmie, używaliśmy narzędzia o nazwie Load Runner firmy Mercury Interactive, które zasadniczo miało dobry sposób na nagrywanie sesji http i sprawienie, by była ona wielokrotnego użytku (do celów testowych). To narzędzie jest niestety bardzo drogie.
Dziękuję za wszystkie odpowiedzi. Myślę, że wszystkie były dość cenne i pomogą innym stawić czoła temu samemu dylematowi. Postanowiłem spróbować Twill, ponieważ wydaje się to bardzo prostym językiem, a ponieważ w Pythonie jest to platforma wieloplatformowa. Wiele z sugerowanych narzędzi również wydawało się dobre - chociaż niektóre wydawały się specyficzne dla systemu Windows, a inne wydawały się mieć bardziej stromą krzywą uczenia się. – Ish