Q

Bigramy tokena indeksującego w Lucene

2009-03-17 16 views 6 likes

6

Potrzebuję indeksować dwanaście gramów słów (tokenów) w Lucene. Mogę produkować n-gramy, a następnie ich indeksować, ale zastanawiam się, czy jest coś w Lucene, które zrobi to za mnie. Dowiedziałem się, że Lucene indeksuje tylko n-gramów znaków. Jakieś pomysły?Bigramy tokena indeksującego w Lucene

2009-03-17 Ilija

A

Odpowiedz

0

W zależności od tego, dlaczego trzeba indeksować dwa razy, pomocne mogą być: SpanQuery i/lub SnowballAnalyzer.

2009-03-17 13:14:59

2

Użyj NGramTokenizer:

http://lucene.apache.org/java/2_3_2/api/contrib-analyzers/org/apache/lucene/analysis/ngram/NGramTokenizer.html

2009-03-17 13:24:39 bajafresh4life

1

Klasa szukasz jest ShingleFilter: http://lucene.apache.org/java/2_4_0/api/org/apache/lucene/analysis/shingle/ShingleFilter.html

2011-06-14 20:53:20 DerHeiligste

Powiązane problemy