używam Solr do dokumentów indeks w 3 Langues (arabski, francuski i angielski), Użyłem tej FieldType:Solr dla arabskiego
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
Wszystko było dobre, ale w języku arabskim, kiedy kładę to Prośba o wyszukanie słowa takiego jak حقل
Solr nie znajduje tego słowa, ale kiedy umieszczam słowo przeciwnie لقح
od lewej do prawej, Solr znajduje słowo i zwraca wynik.
Czy mogę uzyskać wynik na słowa arabskie?
Nie znam żadnego mechanizmu, który mógłby odwrócić kolejność tekstu RTL w Solr. Ogólnie rzecz biorąc, ludzie uważają, że chcą jakiejś lematyzacji w języku arabskim, aby poradzić sobie ze wszystkimi odmienionymi formami. W jakim celu budujesz interfejs użytkownika, do którego wpisujesz wyszukiwane hasła? – bmargulies
Używam strony internetowej, także w moim teście używam Eclipse bezpośrednio z API solrj. –
Czy przypadkiem nie poznałeś swojego tekstu z plików PDF? Jeśli tak, wydaje się, że jest znany problem z Tika: https://issues.apache.org/jira/browse/TIKA-469?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=12995516 –