Szukam sposobu na pseudo-spider na stronie internetowej. Kluczowe jest to, że tak naprawdę nie chcę zawartości, ale raczej prostej listy URI. Mogę dostać dość blisko do tego pomysłu z Wget używając opcji --spider
, ale gdy potokiem że wyjście poprzez grep
, nie mogę wydawać się znaleźć właściwą magię, aby to działało:Spider a Website and Return URLs Only
wget --spider --force-html -r -l1 http://somesite.com | grep 'Saving to:'
Filtr grep
wydaje nie mieć absolutnie żadnego wpływu na dane wyjściowe wget
. Czy mam coś nie tak, czy jest jakieś inne narzędzie, które powinienem spróbować, które jest bardziej nastawione na dostarczanie tego rodzaju ograniczonego zestawu wyników?
UPDATE
Więc po prostu okazało się, że w trybie offline, domyślnie wget
pisze na stderr. Brakowało mi tego na stronach man (w rzeczywistości nadal nie znalazłem go, jeśli jest tam). Raz rurami powrót do stdout, mam bliżej do czego potrzebuję:
wget --spider --force-html -r -l1 http://somesite.com 2>&1 | grep 'Saving to:'
bym nadal być zainteresowany w innych/lepszych środków do prowadzenia tego typu rzeczy, jeśli w ogóle istnieje.
Zobacz to pytanie/odpowiedź, aby uzyskać inny sposób, używając skryptu python: http://stackoverflow.com/questions/9561020/how-do-i--using-the-python-scrapy-module-to-list-all- URL-y z mojej strony internetowej –
możliwy duplikat [Uzyskaj listę adresów URL z witryny] (http://stackoverflow.com/questions/857653/get-a-list-of-urls-froma-a- strona) –