2008-08-05 18 views
16

Chciałbym zrobić nocne crona, który pobiera moją stronę stackoverflow i dyferencjału ją od wczorajszego stronie, więc mogę zobaczyć podsumowanie zmian z moich pytań, odpowiedzi, ranking, itpJak zwijać lub wget strony internetowej?

Niestety, nie mogłam nie dostaniesz właściwego zestawu plików cookie, itp., aby to działało. Jakieś pomysły?

Ponadto, gdy wersja beta zostanie zakończona, czy moja strona stanu będzie dostępna bez logowania?

Odpowiedz

9

Twoja strona statusu jest dostępna teraz bez logowania (kliknij logout i wypróbuj). Po wyłączeniu beta-cookie nie będzie nic pomiędzy Tobą a Twoją stroną statusu.

Dla wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html 
3

fajny pomysł :)

Przypuszczam użyłeś Wget

--load-cookies (filename) 

może pomóc trochę, ale to może być łatwiejsze w użyciu coś jak Mechanize (w Perl lub Python), aby naśladować przeglądarkę bardziej w celu uzyskania dobrego pająka.

2

Nie mogłem dowiedzieć się, jak dostać ciasteczka do pracy albo, ale udało mi się dostać do mojej stronie statusu w mojej przeglądarce, kiedy byłem wylogowany, więc załóżmy, że to zadziała, gdy stackoverflow stanie się publiczny.

Jest to ciekawy pomysł, ale czy nie podniosą Państwo również różnic w podstawowym kodzie html? Czy masz strategię uniknięcia różnicy html, a nie faktycznej zawartości?

+0

Gdybym miał czas, chciałbym wnieść [Piękne Soup] (http://www.crummy.com/software/BeautifulSoup/) (lub coś lepszy?) skrypt, aby ładnie zeskrobać dane, ale na razie szukam linii tekstu, którego potrzebuję. –

2

A oto co działa ...

curl -s --cookie soba=. http://stackoverflow.com/users 
Powiązane problemy