2013-08-16 13 views
8

Następujące nie działa. Nie wiem, dlaczego zatrzymuje się tylko w początkowym adresie URL, nie przechodź do odnośników, aby wyszukać dany typ pliku.Pobierz wszystkie pliki określonego typu ze strony internetowej za pomocą wget

wget -r -A .pdf HOME_PAGE_URL

inny sposób rekursywnie pobrać wszystkie pliki PDF w witrynie. ?

+0

Możliwy duplikat [Jak pobrać wszystkie linki do plików .zip na danej stronie internetowej za pomocą wget/curl?] (http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl) – Seanny123

Odpowiedz

1

Może być oparty na pliku robots.txt. Spróbuj dodać -e robots=off.

Inne możliwe problemy to uwierzytelnianie oparte na plikach cookie lub odrzucanie agenta dla wget. See these examples.

EDIT: kropka w „.pdf” jest błędne według sunsite.univie.ac.at

+0

Próbowałem, ale ten sam wynik. Z pewnością nie jest to strona z plikami cookie. Mogłem pobrać przy użyciu rekursywnie python urllib. Może być dziennik pomoże. Zasadniczo pobiera stronę główną mówi Usuwanie adresu URL strony głównej, ponieważ powinno zostać odrzucone. Następnie trafia na stronę, która nie ma żadnych odnośników i stopów. A co z innymi linkami w nadziei maga? – SoulMan

+0

Próbowałeś czegoś? Usunięcie kropki? Ignoruje plik robots.txt? Lub symulacji przeglądarki? A może wszystkie? – rimrul

+0

Próbowano usunąć kropkę i ignorowanie robota. – SoulMan

1

następujące cmd działa na mnie, będzie pobrać zdjęcia miejscu

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/ 
Powiązane problemy