Piszę robota strony w php i już mam kod, który może wyodrębnić wszystkie linki z witryny. Problem: witryny używają kombinacji adresów bezwzględnych i względnych. Przykłady (http zastąpione hxxp jak ja nie może dodawać hiperłącza):php przekonwertować wszystkie linki do bezwzględnych urls
hxxp: //site.com/
site.com
site.com/index.php
hxxp: //site.com/hello/index.php
/hello/index.php
hxxp: //site2.com/index.php
witryna2.com/index.php
Nie mam kontroli nad łączami (jeśli są bezwzględne/względne), ale muszę je wykonać. Muszę przekonwertować wszystkie te linki na bezwzględne adresy URL. Jak zrobić to w php?
Czego używasz do parsowania html i znalezienia linków? Twoja biblioteka może już mieć sposób na rozwiązanie względnych adresów URL. –
Używam mojej funkcji wyodrębniania linków html. Nie używam żadnej biblioteki, z wyjątkiem funkcji curl i php. –