Niedawno zacząłem szukać apaszki. Mógłbym skonfigurować i móc indeksować strony internetowe z mojego zainteresowania z nutch. Nie bardzo rozumiem, jak czytać te dane. Zasadniczo chcę powiązać dane każdej strony z niektórymi metadanymi (niektóre losowe dane na razie) i przechowywać je lokalnie, które później zostaną wykorzystane do wyszukiwania (semantyczne). Czy muszę używać solr lub lucenu do tego samego? Jestem nowy w tych wszystkich dziedzinach. O ile wiem, Nutch jest używany do indeksowania stron internetowych. Czy może wykonywać dodatkowe funkcje, takie jak dodawanie metadanych do przeszukiwanych danych?Nutch: Dane odczytują i dodają metadane
5
A
Odpowiedz
3
Przydatne polecenia.
Rozpocznij Crawl
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
uzyskać statystyki zindeksowanych adresu URL
bin/nutch readdb crawl/crawldb -stats
przeczytane segmencie (pobiera wszystkie dane ze stron internetowych)
bin/nutch readseg -dump crawl/segments/* segmentAllContent
Czytaj segmentu (dostaje tylko tekst pole)
bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate - noparse -noparsedata
Uzyskaj listę wszystkich znanych linków do każdego adresu URL, w tym zarówno źródłowy adres URL, jak i tekst zakotwiczenia linku.
bin/nutch readlinkdb crawl/linkdb/ -dump linkContent
Pobranie wszystkich adresów URL. Daje również inne informacje, takie jak, czy została ona pobrana, ściągnięcie czas, zmodyfikowany czas itd
bin/nutch readdb crawl/crawldb/ -dump crawlContent
do drugiej części. tj. dodać nowe pole planuję użyć wtyczki index-extra lub napisać wtyczkę niestandardową.
Patrz:
Powiązane problemy
- 1. Atrybuty C# i metadane
- 2. Integracja Apache Nutch i Solr
- 3. Scrapy Vs Nutch
- 4. Najnowsze kompatybilne wersje Nutch i Solr
- 5. Nutch-Cygwin Jak ustawić JAVA_HOME
- 6. Crawling użyciu nutch ... Pokazuje IOException
- 7. Metadane instancji Amazon EC2
- 8. os.path.join() i os.path.normpath() dodają podwójny ukośnik w oknach
- 9. Dane EXIF (lub inne dane metadane) wyświetlane przez system Windows, ale PHP nie jest zgodne z
- 10. Informacje o znakowaniu twarzy i metadane zdjęć
- 11. Perl.? Dodają charakteru zacząć od linii
- 12. odczytać metadane doktryny własności podmiotu
- 13. Jak odczytać metadane z mp3?
- 14. Jak przedłużyć Nutch do indeksowania artykułu
- 15. Nutch na odczyt problemu EMR z S3
- 16. .NET Metadane serializacji binarnej
- 17. Serwer SQL - metadane tabeli
- 18. WCF Jak włączyć metadane?
- 19. Android - 360 metadane wideo
- 20. Przeczytaj metadane pliku mp3
- 21. słowo Not Supported: Metadane
- 22. Co oznaczają metadane w systemie Android?
- 23. Pobieranie danych JSON JSTree, a to metadane
- 24. Jak uzyskać metadane obrazu w ios
- 25. Dodaj metadane do zaproszenia do aplikacji Facebook
- 26. Jak mogę odczytać metadane PNG z PHP?
- 27. Jak określić metadane dla dask.dataframe
- 28. Jakie zalety inicjatory słownika dodają do inicjalizatorów kolekcji?
- 29. Szyny 3 automatycznie dodają nagłówek zgodny z X-UA?
- 30. Przekształcenia Web.config dodają dodatkowe wiersze, gdy ich nie ma.
Hi CRS, ponieważ określili swoje pytanie z „semantycznej-web” Zakładam, że chcesz, aby wyodrębnić pewne ustrukturyzowanych danych ze stron, które chcesz indeksować (albo mikroformaty RDFa i/lub Mikrodane). Jeśli tak jest, zaoszczędzi to dużo czasu na Any23 (http://incubator.apache.org/any23/) (który może być zintegrowany z Nutch i prawdopodobnie ktoś już próbuje to zrobić lub zrobił to już). – castagna
Dziękuję za odpowiedź. Rzucę okiem na Any23. Właściwie to indeksuję "normalne" strony internetowe. Nie jest powiązany z żadnymi metadanymi. Mamy pewien algorytm, który wylicza metadane z tekstu z tych stron. Te metadane powinny zostać dodane do lokalnej kopii strony internetowej. Dlatego szukam robota przeszukującego strony internetowe i wyodrębniającego zawartość, a następnie wstawia metadane do lokalnej kopii stron internetowych. – CRS