Mam zamiar użyć webcrawling w aplikacji, nad którą obecnie pracuję. Zrobiłem kilka badań na temat Nutch i przeprowadziłem wstępny test z jego wykorzystaniem. Ale potem natknąłem się na scrapy. Ale kiedy zrobiłem jakieś wstępne badania i przejrzałem dokumentację o scrapy, stwierdziłem, że może ona przechwytywać tylko dane ustrukturyzowane (Musisz podać nazwę div, z której chcesz przechwycić dane). Backend aplikacji, którą tworzę, jest oparty na Pythonie i rozumiem, że scrapy są oparte na Pythonie, a niektóre sugerują, że scrapy są lepsze niż Nutch.Scrapy Vs Nutch
Moim wymaganiem jest przechwytywanie danych z ponad 1000 różnych stron internetowych i wyszukiwanie odpowiednich słów kluczowych w tych informacjach. Czy istnieje sposób, w jaki scrapy mogą spełniać te same wymagania.
1) Jeśli tak, czy możesz wskazać przykład, jak to zrobić?
2) lub Nutch + Solr jest najlepsza dla mojego wymogu
Nazwa div nie jest wymagana do Scrapy, możesz zrobić wszystko, co chcesz. –