Moje pytanie w pigułce: czy ktoś wie o TwitterzeAnalyzer lub TwitterTokenizer dla Lucene?Tokenizacja wpisów na Twitterze w Lucene
Bardziej szczegółowa wersja:
Chcę indeksu szereg tweets w Lucene i zachować warunki jak @user lub #hashtag nienaruszonym. StandardTokenizer nie działa, ponieważ odrzuca interpunkcję (ale robi inne przydatne rzeczy, takie jak przechowywanie nazw domen, adresów e-mail lub rozpoznawanie akronimów). Jak mogę mieć analizator, który robi wszystko, co StandardTokenizer, ale nie dotyka terminów takich jak @user i #hashtag?
Moje obecne rozwiązanie polega na wstępnym przetworzeniu tekstu tweeta przed wprowadzeniem go do analizatora i zastąpieniu znaków innymi ciągami alfanumerycznymi. Na przykład:
Niestety ta metoda łamie uzasadnione adresy e-mail, ale mogę z tym żyć. Czy to podejście ma sens?
Z góry dziękuję!
AMAC
jakie jest Twoje ostateczne rozwiązanie? – Karussell
Jeśli potrzebujesz rozwiązania dla solr, może to pomóc: https://issues.apache.org/jira/browse/SOLR-2059 i coś w rodzaju "# => ALPHA" "@ => ALPHA" – Karussell