2011-07-10 6 views
12

W jaki sposób program wget może zapisywać tylko niektóre typy plików powiązane z stronami powiązanymi z docelową stroną, niezależnie od domeny, w której znajdują się określone pliki?W jaki sposób program wget może zapisywać tylko typy plików certyfikatów powiązane ze stronami powiązanymi ze stroną docelową?

Próba przyspieszenia zadania, które muszę wykonywać często.

Rozdrabniałem przez dokumenty wget i googling, ale nic nie działa. Ciągle otrzymuję tylko stronę docelową lub podstrony bez plików (nawet używając -H), więc oczywiście robię to źle.

Zasadniczo example.com/index1/ zawiera linki do strony example.com/subpage1/ i example.com/subpage2/, a podstrony zawierają linki do strony example2.com/file.ext i example2.com/file2 .ext, itp. Jednak example.com/index1.html może prowadzić do strony example.com/index2/, która zawiera linki do podstron, których nie chcę.

Czy można to nawet zrobić, a jeśli nie, to co sugerujesz? Dzięki.

Odpowiedz

1

Coś jak to powinno działać:

wget --accept "*.ext" --level 2 "example.com/index1/" 
+0

Próbowałem, ale to tylko pobiera example.com/index1/ z jakiegoś powodu ... Co czyni mnie trochę podejrzanym, ponieważ nie jest to nawet ten typ pliku. – Nomen

+0

Czy możesz podać stronę, czy raczej nie próbkę (ale rzeczywistą) witrynę? – ssapkota

+0

Mam ten sam problem, próbuję użyć z: http://www.institutoveritas.net/livros-digitalizados.php – Delfino

14

następujące polecenie pracował dla mnie.

wget -r --accept "*.ext" --level 2 "example.com/index1/" 

Należy dodać rekursywnie, aby dodać -r.

+1

To nie jest dokładnie odpowiedź na pytanie. To sprawia, że ​​wget pobiera, a następnie odrzuca (usuwa) plik (i). – Droidzone

Powiązane problemy