2009-06-24 15 views

Odpowiedz

14

Nutch to najlepsze, co możesz zrobić, jeśli chodzi o darmowego robota. Jest on zbudowany w oparciu o koncepcję Lucene (w skali skalowanej przez firmę) i jest obsługiwany przez tylny koniec Hadoop przy użyciu MapReduce (podobnej do Google) w celu wysyłania zapytań na dużą skalę. Świetne produkty! Obecnie czytam wszystko o Hadoopie w nowym (jeszcze nie opublikowanym) Hadoop in Action od manning. Jeśli pójdziesz tą trasą, proponuję dostać się do zespołu ds. Technicznych recenzji, aby otrzymać wczesną kopię tego tytułu!

Są to wszystkie oparte Java. Jeśli jesteś facetem .net (jak ja!), Możesz być bardziej zainteresowany Lucene.NET, Nutch.NET i Hadoop.NET, które są wszystkie klasy według klasy i api przez porty API do C#.

+0

+1 dla Nutch i Hadoop, możesz również spojrzeć na solr, jeśli szukasz rozproszonego i skalowalnego rozwiązania. –

+4

Wygląda na to, że Nutch.NET zupełnie nie istnieje i nie mogłem nawet znaleźć sposobu na jego pobranie. –

+0

To samo dotyczy Hadoop.NET, nie ma jednego pliku do pobrania –

0

Ostatnio odkryłem jeden o nazwie - Nutch.

0

Jeśli nie jesteś przywiązany do platformy, w przeszłości miałem bardzo dobre doświadczenia z Nutch.

Jest napisany w Javie i idzie w parze z indeksem Lucene.

1

Abot jest dobrym rozszerzalnym robota sieciowego. Każda część architektury jest podłączalna, zapewniając pełną kontrolę nad jej zachowaniem. Jego otwarte źródło, darmowe do użytku komercyjnego i osobistego, napisane w języku C#.

https://github.com/sjdirect/abot

Powiązane problemy