Chcę pobrać zawartość witryny, w której adresy URL są budowane jakoKorzystanie wget ale ignorują parametry URL
http://www.example.com/level1/level2?option1=1&option2=2
w adresie URL tylko http://www.example.com/level1/level2 jest unikalny dla każdej strony, a wartości dla opcja1 i opcja 2 się zmienia. W rzeczywistości każda unikalna strona może zawierać setki różnych notatek ze względu na te zmienne. Używam wget, aby pobrać całą zawartość witryny. Z powodu problemu pobrałem już ponad 3 GB danych. Czy istnieje sposób, aby powiedzieć wget, aby zignorował wszystko, co kryje się pod znakiem zapytania w adresie URL? Nie mogę go znaleźć na stronach man.
Miejmy nadzieję, że URL bez parametru nadal zwróci Ci coś pożytecznego. –
To robi. Nie ma różnicy, czy coś jest za znakiem zapytania, czy nie. Wydaje się śledzić skąd pochodzi przeglądarka. – cootje
Na podstawie strony wget man, w tym momencie nie ma zgodności z ciągami zapytań z wget. Jakiś konkretny powód, aby używać wget, a nie jak scrapy lub curl z odrobiną skryptu powłoki? –