Jeśli jest to pytanie programistyczne, sugeruję napisanie własnego wyrażenia regularnego w celu przeanalizowania wszystkich pobranych treści. Tagi docelowe to IMG i A dla standardowego HTML. W przypadku JAVA,
final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";
to razem z klasami Pattern i Matcher powinny wykrywać początek tagów. Dodaj tag LINK, jeśli chcesz również CSS.
Nie jest to jednak tak łatwe, jak się mogło początkowo wydawać. Wiele stron internetowych nie jest dobrze uformowanych. Wydobywanie wszystkich linków programowo, które człowiek może "rozpoznać", jest naprawdę trudne, jeśli trzeba wziąć pod uwagę wszystkie nieregularne wyrażenia.
Powodzenia!
crawlmysite.in - site nie istnieje –