Jak inteligentnie analizować dane zwracane przez wyniki wyszukiwania na stronie?"Inteligentny" sposób analizowania i korzystania z danych strony internetowej?
Na przykład, powiedzmy, że chciałbym stworzyć usługę internetową, która wyszukuje książki online, analizując wyniki wyszukiwania na wielu stronach internetowych dostawców książek. Mogę pobrać surowe dane HTML strony i zrobić kilka wyrażeń regularnych, aby dane działały dla mojej usługi internetowej, ale jeśli jakakolwiek strona internetowa zmieni formatowanie stron, mój kod zepsuje się!
RSS jest rzeczywiście cudowną opcją, ale wiele witryn nie ma wyszukiwania opartego na XML/JSON.
Czy są jakieś zestawy, które pomagają automatycznie rozpowszechniać informacje na stronach? Szalony pomysł byłoby mieć rozmyty moduł AI rozpoznawać wzory na stronie wyników wyszukiwania i analizowania wyników odpowiednio ...
jeśli chodzi o język, jestem zaawansowany w php, ale jestem gotów użyć asp.net, jeśli to konieczne. dzięki za wszystkie odpowiedzi! – bluebit
Dobra ekspresja regularna może być zaskakująco elastyczna i tolerancyjna w użyciu. Dobrą techniką jest dopasowanie obszaru * przed * elementem danych, następnie umieszczenie danych w grupie przechwytującej za pomocą leniwego kwantyfikatora, a następnie dopasowanie obszaru * po * danych. Jeśli w elastyczny sposób definiujesz dopasowania przed/po, potrafią bardzo dobrze radzić sobie ze zmianami formatowania. www.regular-expressions.info oferuje dobre wyjaśnienia na temat tej i innych technik. – BobMcGee