Jestem nowy w Solr. Czytając wiki Solr, nie rozumiem różnic między WhitespaceTokenizerFactory i StandardTokenizerFactory. Jaka jest ich prawdziwa różnica?Różnica między WhitespaceTokenizerFactory a StandardTokenizerFactory
6
A
Odpowiedz
23
Różnią się sposobem podzielenia analizowanego tekstu na tokeny.
StandardTokenizer robi to na podstawie następujących (wzięte z Lucene javadoc):
- Dzieli słowa na znaki interpunkcyjne, usuwanie znaków interpunkcyjnych. Jednak kropka, która nie znajduje się za białymi cyframi, jest uznawana za część tokenu za część .
- Dzieli słowa na łączniki, o ile nie ma numeru w tokenie , w którym to przypadku cały token jest interpretowany jako numer produktu i nie jest dzielony.
- Rozpoznaje adresy e-mail i internet nazwy hostów jako jeden token.
WhitespaceTokenizer robi to na podstawie białych znaków:
WhitespaceTokenizer jest tokenizer że dzieli tekst na spacji. Sąsiednie ciągi znaków spoza białych znaków tworzą żetony.
Należy wybrać tokenizer, który najlepiej pasuje do Twojej aplikacji. W każdym przypadku musisz użyć tego samego analizatora/tokenizerów do indeksowania i wyszukiwania!
Powiązane problemy
- 1. Różnica między obiektem a *?
- 2. Różnica między jquery a $
- 3. Różnica między String [] a i String ... a
- 4. Różnica między bip pid a $$
- 5. Różnica między kodowaniem a sortowaniem?
- 6. Różnica między onbeforeunload a onunload
- 7. Różnica między OpenCV a OpenCL
- 8. Różnica między wysokością a tłumaczeniemZ
- 9. Różnica między ApplicationInfo a PackageInfo?
- 10. Różnica między CMAKE_PROJECT_NAME a PROJECT_NAME?
- 11. Różnica między autoconf a autoreconf
- 12. Różnica między transakcją a transakcjąScope
- 13. Różnica między File.Copy a File.Move
- 14. Różnica między _declspec a __declspec?
- 15. Różnica między repozytorium a usługą?
- 16. Różnica między CCNode a CCLayer?
- 17. różnica między * y ++ a ++ * y?
- 18. Różnica między IPFS a Filecoin?
- 19. Różnica między systemem a shell_exec
- 20. Różnica między Redis a kafka
- 21. Różnica między dodawaniem a dodawaniem
- 22. Różnica między DisplayFor a ValueFor
- 23. Różnica między @EntityScan a @ComponentScan
- 24. Różnica między DataSource a DataSet
- 25. Różnica między LIST_HEAD_INIT a INIT_LIST_HEAD
- 26. Różnica między GetHostEntry a GetHostByName?
- 27. Różnica między Object.getPrototypeOf a __proto__
- 28. Różnica między CHOICE_MODE_MULTIPLE a CHOICE_MODE_MULTIPLE_MODAL?
- 29. Różnica między WebMvcConfigurationSupport a WebMvcConfigurerAdapter
- 30. Różnica między malloc a dlmalloc
Dzięki csupnig! Kiedy mówisz "używaj tego samego analizatora/tokenizera" do indeksowania i wyszukiwania, masz na myśli, że analizator musi być dopasowany do typu używanego tokenizera, prawda? – trillions
Tak, powinni zrobić to samo, aby wyprodukować podobne żetony. Istnieją rzadkie przypadki, w których w analizatorze analizujących zapytania mają być używane inne tokenizery niż tokenizery używane podczas indeksowania. – csupnig
Dzięki csupnig :) – trillions