Potrzebuję indeksować dwanaście gramów słów (tokenów) w Lucene. Mogę produkować n-gramy, a następnie ich indeksować, ale zastanawiam się, czy jest coś w Lucene, które zrobi to za mnie. Dowiedziałem się, że Lucene indeksuje tylko n-gramów znaków. Jakieś pomysły?Bigramy tokena indeksującego w Lucene
6
A
Odpowiedz
0
W zależności od tego, dlaczego trzeba indeksować dwa razy, pomocne mogą być: SpanQuery i/lub SnowballAnalyzer.
2
1
Klasa szukasz jest ShingleFilter: http://lucene.apache.org/java/2_4_0/api/org/apache/lucene/analysis/shingle/ShingleFilter.html
Powiązane problemy
- 1. Jak zaprojektować robota indeksującego?
- 2. Precyzyjne przywoływanie w lucene java
- 3. Wyszukiwanie wielozadaniowe w Lucene
- 4. Zdobądź częstotliwości w Lucene
- 5. Przeszukaj pola w Lucene
- 6. Lucene w Androidzie
- 7. Generowanie tokena w kontrolerze
- 8. OAuth 2.0 Generowanie tokena i tajnego tokena
- 9. Jak uzyskać wszystkie warunki dla pola Lucene w Lucene 4
- 10. lucene/python
- 11. Lucene - Symbole wieloznaczne w wyrażeniach
- 12. Wyszukiwanie według pola w Lucene
- 13. Elasticsearch zapytań Lucene w grafana
- 14. Ukrywanie tokena GitHub w .gitconfig
- 15. Liczba wystąpień tokena w pliku
- 16. Porównanie wydajności między Zend Lucene i Javą Lucene
- 17. Java Lucene NGramTokenizer
- 18. Pokaż zawartość Lucene indeksu
- 19. Synonimy za pomocą Lucene
- 20. Wyniki Lucene Wyniki
- 21. solr/lucene idf wynik
- 22. Lucene „lub zapytań”
- 23. Wyniki wyszukiwania Paging Lucene
- 24. Zend Lucene czy sfinks?
- 25. Wywiad z Lucene
- 26. Lucene/Lucene.NET - wartości Document.SetBoost()?
- 27. Lucene jako magazyn danych
- 28. Złożoność wyszukiwania Lucene
- 29. Lucene Analizator hebrajski
- 30. Pagacja Lucene z TopScoreDocCollector