Czy pyton ma żadnego sposobu pobierania całej strony HTML i jego zawartość (obrazy, CSS) do folderu lokalnego danego adresu URL. I aktualizowanie lokalnego pliku html w celu wybrania zawartości lokalnie.Pobierz stronę html i jego zawartość
Odpowiedz
można użyć modułu urllib
pobrać poszczególne adresy URL, ale będzie to tylko zwrócić dane. Nie będzie analizować kodu HTML i automatycznie pobierać plików CSS i obrazów.
Jeśli chcesz pobrać stronę „całość”, trzeba będzie analizować HTML i znaleźć inne rzeczy, które trzeba pobrać. Możesz użyć czegoś takiego, jak Beautiful Soup, aby przeanalizować pobrany kod HTML.
This question ma przykładowy kod robiący dokładnie to.
Można użyć urlib:
import urllib.request
opener = urllib.request.FancyURLopener({})
url = "http://stackoverflow.com/"
f = opener.open(url)
content = f.read()
Co szukasz jest narzędziem mirroring. Jeśli chcesz jeden w Pythonie, PyPI wymienia spider.py ale nie mam doświadczenia z nim. Inni mogą być lepsze, ale nie wiem - używam „wget”, który obsługuje getting the CSS i obrazy. To prawdopodobnie robi to, co chcesz (cytując z the manual)
pobierać tylko jedną stronę HTML, ale upewnij pewność, że wszystkie elementy potrzebne do strony, aby być wyświetlane, takie jak obrazami wbudowanymi i stylu zewnętrznego arkusze , są również pobierane. Ponadto należy upewnić się, że pobrane referencje strona pobrane linki.
wget -p --convert-links http://www.server.com/dir/page.html
- 1. Selenium pobierz pełną stronę html
- 2. HTML - Zmień \ Uaktualnij zawartość strony bez odświeżania \ załaduj ponownie stronę
- 3. Pobierz ostatnio odwiedzoną stronę
- 4. Pobierz poprzednią stronę Url
- 5. Xpath - Pobierz element HTML, jeśli jego klasa zawiera tekst
- 6. Pobierz zawartość skryptu jako tekst
- 7. Jak mogę usunąć element HTML i jego zawartość przy użyciu regex
- 8. pobierz zawartość ze strony internetowej za pomocą javafx
- 9. Jak usunąć folder i całą jego zawartość z bieżącego katalogu?
- 10. Powłoka: odczytuje plik i wyświetla jego zawartość w innym pliku.
- 11. Pobierz html z lua
- 12. Pobierz stronę klienta Json jako CSV
- 13. Wybierz część obrazu i pobierz jego współrzędne za pomocą jQuery
- 14. golang exec proces w tle i pobierz jego pid
- 15. Jak przyciemnić całą stronę? (html)
- 16. Pobierz bieżącą stronę System.Web.UI.Page z HttpContext?
- 17. jQuery DataTables - pobierz stronę danego wiersza
- 18. Pobierz zawartość pliku laccdb przez VBA
- 19. pobierz stronę internetową ip używając php
- 20. HTML/Javascript zawartość zmiana div
- 21. Kapibara: powinieneś mieć zawartość html
- 22. Pobierz zawartość DIV za pomocą JavaScriptu
- 23. Pobierz wewnętrzny kod HTML elementu w lxml
- 24. Pobierz całą zawartość strony za pomocą Selenium
- 25. jQuery mobile prefetching stronę ładującą zawartość za pośrednictwem Ajaxa
- 26. Wysokość przewijania zostanie automatycznie przewinięta, gdy zawartość przepełni stronę
- 27. Pytanie o tym stronę HTML w PHP
- 28. Jak opublikować stronę .php zamiast .html na github, aby demonstrować zawartość php?
- 29. Ustaw szerokość WebView, aby zawinąć zawartość HTML?
- 30. Jak skopiować katalog i jego zawartość do istniejącej lokalizacji za pomocą języka Python?
To tylko wydaje się pobrać strony biorąc pod kody odpowiedzi HTTP konto; w rzeczywistości nie pobiera zasobów strony, chyba że czegoś brakuje. – bdeniker