2013-08-29 15 views
13

Mam małą witrynę, którą próbuję zindeksować na mojej lokalnej maszynie tylko z plikiem html, bez obrazów, plików dołączanych do obrazu ... pdf, ..etc.Lustro Wget Mirror tylko

Nigdy nie odzwierciedlałem strony internetowej i myślę, że byłoby dobrze, aby zadać to pytanie, zanim zrobi się coś katastrofalnego.

To polecenie, które chcę uruchomić i zastanawiam się, czy należy dodać coś jeszcze.

wget --mirror <url> 

Dzięki!

Odpowiedz

17

-R i -A opcje służą do odrzucić lub zaakceptować określonych typów plików.

Weź również pod uwagę przepustowość wykorzystywaną do pobrania całej witryny. Możesz również dodać opcję --random-wait.

Jeśli chcesz pominąć wszystkie obrazy i pliki PDF, twoja komenda będzie wyglądać następująco:

wget --mirror --random-wait -R gif,jpg,pdf <url> 

Uwaga: mirroring strony internetowej może iść przeciwko polityce, więc proponuję najpierw sprawdzić.

Źródła:

2

Istnieją także wget łatki, które dodają opcje filtrowania MIMETYPES ...