2008-10-21 16 views

Odpowiedz

3

Żaden z projektów w rodzinie Lucene nie może przetwarzać plików w trybie natywnym, ale istnieją narzędzia, które można dodać i dobrze napisane przykłady użycia własnego.

Lucene zrobi prawie wszystko, czego potrzebujesz, ale nie ma sensu, jeśli chodzi o twój czas, jak powiedział Tony. Tysiące dokumentów naprawdę nie są tak liczne, więc możesz być w stanie uciec z lżejszą alternatywą.

Powiedziałbym, że nadal zalecałbym spojrzenie na Solr - jest o wiele łatwiejszy w konfiguracji niż Lucene, ma wsparcie dla kopii zapasowych, replikacji itp., a także sprytny interfejs JSON, który pasowałby do twojego przypadku użycia: http://wiki.apache.org/solr/SolJSON

+1

Solr 1.4 będzie analizować pliki PDF i dokumenty MS Word. –

0

Jeśli masz serwer Linux, możesz użyć indeksu Beagle, a następnie użyj funkcji wyszukiwania, która jest z nim związana. Ma (eksperymentalny) interfejs wyszukiwania w Internecie i można go również podłączyć do pola wyszukiwania FireFox.

Automatycznie indeksuje pliki w ich zawartości i podejrzewam, że o wiele skuteczniejsze będzie ulepszenie lub poprawienie wyglądu beagle niż napisanie własnego interfejsu wyszukiwania do Lucene.

1

Odpowiedzi na tak szerokie pytanie na tym forum będzie trudne. Polecam sprawdzić książkę Lucene in Action,, która obejmuje podstawy indeksowania i wyszukiwania w dość czytelny sposób.

Biorąc pod uwagę Twoją aplikację, wygląda na to, że Nutch i Solr prawdopodobnie nie będą potrzebne. Ponieważ wszystkie twoje dokumenty są dostępne lokalnie, Nutch prawdopodobnie nie będzie pomocny. Solr może pomóc w zarządzaniu klastrem wyszukiwarek, jeśli masz wysokie obciążenie zapytań, ale Lucene jest wysoce wydajny i obsługuje duże zestawy dokumentów w bardzo skalowalny sposób.

Jednym z obszarów, który może pochłonąć wiele wysiłku, jest użycie pliku PDF. Istnieje możliwość indeksowania dokumentów PDF i istnieje Lucene contributions to facilitate the extraction of raw text from PDFs, ale w zależności od dokumentu jakość wyników może się różnić. Często kontekst słowa kluczowego w dokumencie PDF jest niejasny z powodu instrukcji formatowania, co może utrudniać wyszukiwanie w bliskości lub pokazywać kontekst trafienia.

2

Spójrz na eprints. Obejmuje on przepływ pracy dla dodawania nowych dokumentów, automatycznie indeksuje i miniaturki plików PDF i ma dość obszerną funkcjonalność wyszukiwania pełnotekstowego. Można go również łatwo dostosować i oznakować marką.

Po co wynajdować koło. Jeszcze raz.

+0

Znów .... lmmfao .. mod +1 za bycie prawym i zabawnym w tym samym czasie. –

-4

Posiadając (imho) wyraźną przewagę bycia na komputerze Mac, używam SearchLight na nieco starszym G5. przyjemny interfejs sieciowy do podkreślenia, wbudowana usługa indeksowania Mac OS.

3

Google Search Appliance http://www.google.com/enterprise/gsa/

+2

Dlaczego spadki? –

+2

Nie rozumiem także głosów odmownych. GSA jest właśnie tym, czego potrzebujesz. Nie tylko zaindeksuje wszystkie pliki PDF, ale także zaindeksuje cały intranet i zapewni znacznie lepsze wyniki wyszukiwania niż Lucene. – GateKiller

+0

Doby w dół +1 były raczej niesprawiedliwe. Z wyjątkiem implikacji, że OP może poszukiwać "darmowego" rozwiązania, GSA jest wartym rozważenia dla tego typu aplikacji ... – mjv

8

miałem szczęście z Lucene, ale to nie wystarczy kliknąć, instalacja i wyszukiwanie, to wymaga trochę pracy.
Jeśli potrzebujesz czegoś, co możesz pobrać i zainstalować i przeszukiwać w ciągu 10 minut, spójrz na darmowy Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/, używa Lucene, ale jest spakowany tak, że jest skonfigurowany i gotowy do uruchomienia po instalacji, o wiele łatwiej sposób na wypróbowanie Lucene.

3

Myślę, że chcesz system do zarządzania twoim plikiem PDF. Spróbuj użyć systemu dspace. Dspace jest biblioteką cyfrową, na której opiera się Lucene. www.dspace.org.

+0

Przepraszam, mam błąd, http://www.dspace.org/. –

7

Nutch + Lucene + wtyczka Pdf włączona w Nutch to Twoje rozwiązanie. Nutch pozwala analizować pliki PDF, włączając wtyczkę pdf.

Lucene pozwala na indeksowanie przeszukiwanych i parsowanych danych, a Nutch ma servelet, który daje interfejs wyszukiwania.

Używamy tego samego dla naszych wewnętrznych pasów.

1

Wspaniałą wyszukiwarką darmowych wyszukiwarek jest IBM Yahoo! bezpłatne wyszukiwanie. Nie jestem pewien, czy podążyli za planami wykorzystania Lucene pod okładkami, ale pozostaje to jedna z naprawdę świetnych, dostępnych na wschodzie technologii darmowego wyszukiwania. Obsługuje do 500 KB dokumentów, jak sądzę, i obsługuje również PDF i inne formaty nietekstowe. Graficzny interfejs użytkownika; łatwe dostosowywanie wyników wyszukiwania i podstawowej analizy wyszukiwania. Podstawowy tezaurus i potężny interfejs API, dzięki któremu możesz zrobić praktycznie wszystko, co chcesz, jeśli nieoczekiwane wyniki nie są zgodne z Twoimi upodobaniami. Zasugerowaliśmy to wielu klientom, którzy mieli mniej niż pół miliona dokumentów i bardzo im się to podoba.

Powiązane problemy