Nasza firma posiada tysiące dokumentów PDF. W jaki sposób tworzymy prostą wyszukiwarkę za pomocą Lucene, Solr lub Nutch? Zapewnimy podstawową stronę internetową JSP/JSP, w której ludzie mogą wpisywać słowa i wykonywać podstawowe i/lub zapytania, a następnie wyświetlać łącza do dokumentów wszystkich pasujących plików PDF.W jaki sposób tworzymy prostą wyszukiwarkę za pomocą Lucene, Solr lub Nutch?
Odpowiedz
Żaden z projektów w rodzinie Lucene nie może przetwarzać plików w trybie natywnym, ale istnieją narzędzia, które można dodać i dobrze napisane przykłady użycia własnego.
Lucene zrobi prawie wszystko, czego potrzebujesz, ale nie ma sensu, jeśli chodzi o twój czas, jak powiedział Tony. Tysiące dokumentów naprawdę nie są tak liczne, więc możesz być w stanie uciec z lżejszą alternatywą.
Powiedziałbym, że nadal zalecałbym spojrzenie na Solr - jest o wiele łatwiejszy w konfiguracji niż Lucene, ma wsparcie dla kopii zapasowych, replikacji itp., a także sprytny interfejs JSON, który pasowałby do twojego przypadku użycia: http://wiki.apache.org/solr/SolJSON
Jeśli masz serwer Linux, możesz użyć indeksu Beagle, a następnie użyj funkcji wyszukiwania, która jest z nim związana. Ma (eksperymentalny) interfejs wyszukiwania w Internecie i można go również podłączyć do pola wyszukiwania FireFox.
Automatycznie indeksuje pliki w ich zawartości i podejrzewam, że o wiele skuteczniejsze będzie ulepszenie lub poprawienie wyglądu beagle niż napisanie własnego interfejsu wyszukiwania do Lucene.
Odpowiedzi na tak szerokie pytanie na tym forum będzie trudne. Polecam sprawdzić książkę Lucene in Action,, która obejmuje podstawy indeksowania i wyszukiwania w dość czytelny sposób.
Biorąc pod uwagę Twoją aplikację, wygląda na to, że Nutch i Solr prawdopodobnie nie będą potrzebne. Ponieważ wszystkie twoje dokumenty są dostępne lokalnie, Nutch prawdopodobnie nie będzie pomocny. Solr może pomóc w zarządzaniu klastrem wyszukiwarek, jeśli masz wysokie obciążenie zapytań, ale Lucene jest wysoce wydajny i obsługuje duże zestawy dokumentów w bardzo skalowalny sposób.
Jednym z obszarów, który może pochłonąć wiele wysiłku, jest użycie pliku PDF. Istnieje możliwość indeksowania dokumentów PDF i istnieje Lucene contributions to facilitate the extraction of raw text from PDFs, ale w zależności od dokumentu jakość wyników może się różnić. Często kontekst słowa kluczowego w dokumencie PDF jest niejasny z powodu instrukcji formatowania, co może utrudniać wyszukiwanie w bliskości lub pokazywać kontekst trafienia.
Spójrz na eprints. Obejmuje on przepływ pracy dla dodawania nowych dokumentów, automatycznie indeksuje i miniaturki plików PDF i ma dość obszerną funkcjonalność wyszukiwania pełnotekstowego. Można go również łatwo dostosować i oznakować marką.
Po co wynajdować koło. Jeszcze raz.
Znów .... lmmfao .. mod +1 za bycie prawym i zabawnym w tym samym czasie. –
Posiadając (imho) wyraźną przewagę bycia na komputerze Mac, używam SearchLight na nieco starszym G5. przyjemny interfejs sieciowy do podkreślenia, wbudowana usługa indeksowania Mac OS.
Google Search Appliance http://www.google.com/enterprise/gsa/
Dlaczego spadki? –
Nie rozumiem także głosów odmownych. GSA jest właśnie tym, czego potrzebujesz. Nie tylko zaindeksuje wszystkie pliki PDF, ale także zaindeksuje cały intranet i zapewni znacznie lepsze wyniki wyszukiwania niż Lucene. – GateKiller
Doby w dół +1 były raczej niesprawiedliwe. Z wyjątkiem implikacji, że OP może poszukiwać "darmowego" rozwiązania, GSA jest wartym rozważenia dla tego typu aplikacji ... – mjv
miałem szczęście z Lucene, ale to nie wystarczy kliknąć, instalacja i wyszukiwanie, to wymaga trochę pracy.
Jeśli potrzebujesz czegoś, co możesz pobrać i zainstalować i przeszukiwać w ciągu 10 minut, spójrz na darmowy Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/, używa Lucene, ale jest spakowany tak, że jest skonfigurowany i gotowy do uruchomienia po instalacji, o wiele łatwiej sposób na wypróbowanie Lucene.
Myślę, że chcesz system do zarządzania twoim plikiem PDF. Spróbuj użyć systemu dspace. Dspace jest biblioteką cyfrową, na której opiera się Lucene. www.dspace.org.
Przepraszam, mam błąd, http://www.dspace.org/. –
Nutch + Lucene + wtyczka Pdf włączona w Nutch to Twoje rozwiązanie. Nutch pozwala analizować pliki PDF, włączając wtyczkę pdf.
Lucene pozwala na indeksowanie przeszukiwanych i parsowanych danych, a Nutch ma servelet, który daje interfejs wyszukiwania.
Używamy tego samego dla naszych wewnętrznych pasów.
Wspaniałą wyszukiwarką darmowych wyszukiwarek jest IBM Yahoo! bezpłatne wyszukiwanie. Nie jestem pewien, czy podążyli za planami wykorzystania Lucene pod okładkami, ale pozostaje to jedna z naprawdę świetnych, dostępnych na wschodzie technologii darmowego wyszukiwania. Obsługuje do 500 KB dokumentów, jak sądzę, i obsługuje również PDF i inne formaty nietekstowe. Graficzny interfejs użytkownika; łatwe dostosowywanie wyników wyszukiwania i podstawowej analizy wyszukiwania. Podstawowy tezaurus i potężny interfejs API, dzięki któremu możesz zrobić praktycznie wszystko, co chcesz, jeśli nieoczekiwane wyniki nie są zgodne z Twoimi upodobaniami. Zasugerowaliśmy to wielu klientom, którzy mieli mniej niż pół miliona dokumentów i bardzo im się to podoba.
- 1. Integracja Apache Nutch i Solr
- 2. solr/lucene idf wynik
- 3. Jak mogę wyszukać listę wartości za pomocą Solr/Lucene?
- 4. pomocą portu Solr i Lucene Zends razem
- 5. Synonimy za pomocą Lucene
- 6. Najnowsze kompatybilne wersje Nutch i Solr
- 7. Dodawanie szyfrowania do indeksów Solr/lucene
- 8. Zbuduj prostą bibliotekę haskell za pomocą nix
- 9. Jak zindeksować witrynę internetową z uwierzytelnianiem SAML za pomocą narzędzia ManifoldCF lub Nutch?
- 10. Jak ulepszyć dokument SOLR podczas indeksowania za pomocą/solr/update
- 11. Scrapy Vs Nutch
- 12. Czy można modelować podobieństwo cosinus w Solr/Lucene?
- 13. Sortowanie za pomocą pola wielowartościowego w Solr
- 14. Nutch komunikat „Brak IndexWriters aktywna” podczas ładowania do SOLR
- 15. Jak zbudować wyszukiwarkę? (Aktualizacja 2013)
- 16. Lucene „lub zapytań”
- 17. Hostowane opcje wyszukiwania pełnotekstowego - IndexTank vs Solr vs Lucene
- 18. Wyszukaj częściowe słowa za pomocą Solr
- 19. Jak wyświetlić/debugować sposób, w jaki SOLR znajduje wyniki?
- 20. W jaki sposób Angularjs obsługuje zarządzanie pamięcią za pomocą ngView?
- 21. Wdrażając wyszukiwarkę wierszyków
- 22. Jak wykrywać domyślną wyszukiwarkę Chrome
- 23. Wyszukiwanie zakresów dat za pomocą Lucene w Javie?
- 24. Jak połączyć dwa zapytania Lucene za pomocą OR?
- 25. Jaki jest poprawny sposób utrzymywania indeksów dla Sunspot Solr?
- 26. Czy potrzebujesz Solr/Lucene dla MongoDB, CouchDB i Cassandra?
- 27. Solr lub Nhibernate Szukaj
- 28. W jaki sposób ułatwić zapamiętanie głosowania za pomocą plików cookie?
- 29. W jaki sposób debugujesz funkcje za pomocą PostgreSQL?
- 30. W jaki sposób opracowujesz servlety Java za pomocą Eclipse?
Solr 1.4 będzie analizować pliki PDF i dokumenty MS Word. –