Pobierz wszystkie pliki określonego typu ze strony internetowej za pomocą wget

Następujące nie działa. Nie wiem, dlaczego zatrzymuje się tylko w początkowym adresie URL, nie przechodź do odnośników, aby wyszukać dany typ pliku.Pobierz wszystkie pliki określonego typu ze strony internetowej za pomocą wget

wget -r -A .pdf HOME_PAGE_URL

inny sposób rekursywnie pobrać wszystkie pliki PDF w witrynie. ?

Źródło

2013-08-16 SoulMan

Możliwy duplikat [Jak pobrać wszystkie linki do plików .zip na danej stronie internetowej za pomocą wget/curl?] (http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl) – Seanny123

Może być oparty na pliku robots.txt. Spróbuj dodać -e robots=off.

Inne możliwe problemy to uwierzytelnianie oparte na plikach cookie lub odrzucanie agenta dla wget. See these examples.

EDIT: kropka w „.pdf” jest błędne według sunsite.univie.ac.at

Źródło

2013-08-16 13:39:05 rimrul

Próbowałem, ale ten sam wynik. Z pewnością nie jest to strona z plikami cookie. Mogłem pobrać przy użyciu rekursywnie python urllib. Może być dziennik pomoże. Zasadniczo pobiera stronę główną mówi Usuwanie adresu URL strony głównej, ponieważ powinno zostać odrzucone. Następnie trafia na stronę, która nie ma żadnych odnośników i stopów. A co z innymi linkami w nadziei maga? – SoulMan

Próbowałeś czegoś? Usunięcie kropki? Ignoruje plik robots.txt? Lub symulacji przeglądarki? A może wszystkie? – rimrul

Próbowano usunąć kropkę i ignorowanie robota. – SoulMan

następujące cmd działa na mnie, będzie pobrać zdjęcia miejscu

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/

Źródło

2015-06-03 06:27:18 telehan

Pobierz wszystkie pliki określonego typu ze strony internetowej za pomocą wget

Odpowiedz

Powiązane problemy