Który analizator lucenu może być używany do prawidłowego obchodzenia się z tekstem japońskim? Powinien być w stanie obsłużyć Kanji, Hiragana, Katakana, Romaji i dowolną ich kombinację.Jakiego analizatora lucenu można użyć do obsługi japońskiego tekstu?
Odpowiedz
znalazłem lucene-gosen robiąc wyszukiwania dla własnych celów:
Ich przykładem wygląda dość przyzwoite, ale myślę, że to jedna z tych rzeczy, która wymaga szeroko zakrojonych testów. Martwię się również o ich zgodność z poprzednimi wersjami (a raczej całkowity brak jednego).
Prawdopodobnie powinieneś spojrzeć na pakiet CJK, który znajduje się w strefie dystrybucji Lucene. Istnieje analizator i tokenizer przeznaczony specjalnie do obsługi języka chińskiego, japońskiego i koreańskiego.
Analizator CJK wydaje się być naiwnym sposobem wyszukiwania rzeczy, a z wcześniejszych doświadczeń nie wydaje się być bardzo trafny wyniki wyszukiwania. Czy jest coś, co powinienem zrobić, aby program CJK Analyzer działał jak modyfikowanie niektórych wag? Dzięki –
Ja sam nigdy nie użyłem analizatora CJK, więc nie mogę tego powiedzieć. Możesz spróbować poprosić o listę dyskusyjną Lucene (http://lucene.apache.org/java/docs/mailinglists.html#Java Lista użytkowników), aby uzyskać bardziej szczegółową pomoc - są osoby, które mają bardzo duże doświadczenie z Lucene na tej liście. – adrianbanks
- 1. Jakiego edytora tekstu użyć, gdy ssh używa terminalu Mac
- 2. jakiego systemu Pythona użyć?
- 3. Jakiego modułu JSON można użyć w Pythonie 2.5?
- 4. Jakiego miejsca do przechowywania powinienem użyć dla wtyczki Outlooka?
- 5. Jakiego menedżera transakcji użyć? (JPA, Spring)
- 6. Jakiego programu ładującego klasy użyć w Parcel.readHashMap?
- 7. Jak zdecydować, jakiego przedziału użyć dla requestLocationUpdates?
- 8. Jakiego typu powinienem użyć w dwuwymiarowej tablicy?
- 9. Jakiego słoika na molo powinienem użyć?
- 10. PMD - ostrzeżenia analizatora kodu
- 11. Jakiego typu danych należy użyć do przechowywania wartości pieniężnych?
- 12. Jakiego pakietu użyć do korzystania z GPIO na Raspberry Pi?
- 13. Jakiego typu użyć do danych obrazu w pamięci w Haskell?
- 14. Jakiego formularza należy użyć do tworzenia strony internetowej?
- 15. Nie można zaktualizować build.gradle użyć biblioteki obsługi 23.0.1
- 16. Jakiego wyrażenia regularnego można użyć do znalezienia wpisu Nᵗʰ na liście rozdzielanej przecinkami?
- 17. Jakiego pakietu lub kodu R można użyć do tworzenia niestandardowych GUI?
- 18. Jakiego programu można użyć do generowania diagramów widoku SQL/struktury tabeli?
- 19. Jakiego typu zmiennej można użyć do przechowywania dużych liczb (ponad 30 cyfr) w języku Java?
- 20. Interfejs API RESTful: Jakiego zestawu funkcji METODA/NAGŁÓWEK można użyć tylko do sprawdzania poprawności?
- 21. Jak naprawić uszkodzony indeks lucenu?
- 22. Kiedy można używać generatora analizatora składni?
- 23. Konwersja tekstu japońskiego na pełnej szerokości na połowę szerokości (zen-kaku na han-kaku)
- 24. Używanie formularza Windows jako klasy abstrakcyjnej - jakiego wzoru użyć?
- 25. Jakiego elementu użyć na odwrocie: <abbr>
- 26. Czy można użyć polecenia linux cat do zapisania tekstu do pliku?
- 27. Pisanie prostego analizatora składni
- 28. Jakiego algorytmu użyć, aby obliczyć najszybsze zamówienie na budowę budynków?
- 29. Jakiego rozwiązania serwerowego git użyć w oknach i katalogu aktywnym?
- 30. Jak powiedzieć DOMDocument-> load() jakiego kodowania chcę użyć?
Nie używaliśmy lucene-gosen, ale użyliśmy gosen. Tak więc akceptuję tę odpowiedź (ponieważ jest wystarczająco blisko, a projekt wygląda interesująco). CJK robi bardzo naiwne wyszukiwanie, w którym po prostu dopasowuje znaki, a nie słowa w przeciwieństwie do gosen (który używa słownika do prawidłowego analizowania). –