2009-10-26 10 views

Odpowiedz

3

znalazłem lucene-gosen robiąc wyszukiwania dla własnych celów:

Ich przykładem wygląda dość przyzwoite, ale myślę, że to jedna z tych rzeczy, która wymaga szeroko zakrojonych testów. Martwię się również o ich zgodność z poprzednimi wersjami (a raczej całkowity brak jednego).

+1

Nie używaliśmy lucene-gosen, ale użyliśmy gosen. Tak więc akceptuję tę odpowiedź (ponieważ jest wystarczająco blisko, a projekt wygląda interesująco). CJK robi bardzo naiwne wyszukiwanie, w którym po prostu dopasowuje znaki, a nie słowa w przeciwieństwie do gosen (który używa słownika do prawidłowego analizowania). –

4

Prawdopodobnie powinieneś spojrzeć na pakiet CJK, który znajduje się w strefie dystrybucji Lucene. Istnieje analizator i tokenizer przeznaczony specjalnie do obsługi języka chińskiego, japońskiego i koreańskiego.

+0

Analizator CJK wydaje się być naiwnym sposobem wyszukiwania rzeczy, a z wcześniejszych doświadczeń nie wydaje się być bardzo trafny wyniki wyszukiwania. Czy jest coś, co powinienem zrobić, aby program CJK Analyzer działał jak modyfikowanie niektórych wag? Dzięki –

+0

Ja sam nigdy nie użyłem analizatora CJK, więc nie mogę tego powiedzieć. Możesz spróbować poprosić o listę dyskusyjną Lucene (http://lucene.apache.org/java/docs/mailinglists.html#Java Lista użytkowników), aby uzyskać bardziej szczegółową pomoc - są osoby, które mają bardzo duże doświadczenie z Lucene na tej liście. – adrianbanks

Powiązane problemy