2012-05-27 8 views
5

Niedawno zacząłem szukać apaszki. Mógłbym skonfigurować i móc indeksować strony internetowe z mojego zainteresowania z nutch. Nie bardzo rozumiem, jak czytać te dane. Zasadniczo chcę powiązać dane każdej strony z niektórymi metadanymi (niektóre losowe dane na razie) i przechowywać je lokalnie, które później zostaną wykorzystane do wyszukiwania (semantyczne). Czy muszę używać solr lub lucenu do tego samego? Jestem nowy w tych wszystkich dziedzinach. O ile wiem, Nutch jest używany do indeksowania stron internetowych. Czy może wykonywać dodatkowe funkcje, takie jak dodawanie metadanych do przeszukiwanych danych?Nutch: Dane odczytują i dodają metadane

+0

Hi CRS, ponieważ określili swoje pytanie z „semantycznej-web” Zakładam, że chcesz, aby wyodrębnić pewne ustrukturyzowanych danych ze stron, które chcesz indeksować (albo mikroformaty RDFa i/lub Mikrodane). Jeśli tak jest, zaoszczędzi to dużo czasu na Any23 (http://incubator.apache.org/any23/) (który może być zintegrowany z Nutch i prawdopodobnie ktoś już próbuje to zrobić lub zrobił to już). – castagna

+0

Dziękuję za odpowiedź. Rzucę okiem na Any23. Właściwie to indeksuję "normalne" strony internetowe. Nie jest powiązany z żadnymi metadanymi. Mamy pewien algorytm, który wylicza metadane z tekstu z tych stron. Te metadane powinny zostać dodane do lokalnej kopii strony internetowej. Dlatego szukam robota przeszukującego strony internetowe i wyodrębniającego zawartość, a następnie wstawia metadane do lokalnej kopii stron internetowych. – CRS

Odpowiedz

3

Przydatne polecenia.

Rozpocznij Crawl

bin/nutch crawl urls -dir crawl -depth 3 -topN 5 

uzyskać statystyki zindeksowanych adresu URL

bin/nutch readdb crawl/crawldb -stats 

przeczytane segmencie (pobiera wszystkie dane ze stron internetowych)

bin/nutch readseg -dump crawl/segments/* segmentAllContent 

Czytaj segmentu (dostaje tylko tekst pole)

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -  noparse -noparsedata 

Uzyskaj listę wszystkich znanych linków do każdego adresu URL, w tym zarówno źródłowy adres URL, jak i tekst zakotwiczenia linku.

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent 

Pobranie wszystkich adresów URL. Daje również inne informacje, takie jak, czy została ona pobrana, ściągnięcie czas, zmodyfikowany czas itd

bin/nutch readdb crawl/crawldb/ -dump crawlContent 

do drugiej części. tj. dodać nowe pole planuję użyć wtyczki index-extra lub napisać wtyczkę niestandardową.

Patrz:

this i this