Biorąc absolutny URL strony, a względna Link znaleźć w tę stronę, by tam być sposobem na a) ostatecznie zrekonstruować lub b) best-effort Rekonstrukc absolutny URL względnego łącza?Rekonstrukcja bezwzględnych adresów URL z względnych adresów URL na stronie
W moim przypadku odczytuję plik HTML z podanego adresu URL za pomocą pięknej zupy, usuwając wszystkie źródła znaczników img i próbując utworzyć listę bezwzględnych adresów URL do obrazów strony.
funkcja My Python dotąd wygląda następująco:
function get_image_url(page_url,image_src):
from urlparse import urlparse
# parsed = urlparse('http://user:[email protected]:80/path;parameters?query=argument#fragment')
parsed = urlparse(page_url)
url_base = parsed.netloc
url_path = parsed.path
if src.find('http') == 0:
# It's an absolute URL, do nothing.
pass
elif src.find('/') == 0:
# If it's a root URL, append it to the base URL:
src = 'http://' + url_base + src
else:
# If it's a relative URL, ?
UWAGA: nie potrzebują odpowiedź Python, tylko logiki wymagane.
Hej coool !! (Zgaduję, że potrzebowałem Python ..) – Yarin
Moduł urlparse został przemianowany na urllib.parse w Pythonie 3. Tak więc, 'from urllib.parse import urljoin' – SparkAndShine