2009-10-07 18 views
7

Wiem, że ma on wartość zmiennoprzecinkową, ale jakie są typowe wartości dla różnych poziomów wzmocnienia w wyniku?Lucene/Lucene.NET - wartości Document.SetBoost()?

Na przykład:

Gdybym chciał zwiększyć wagę dokumentu, o 10%, po czym powinienem go 1,1 ustawiony? Dla 20%, a następnie 1,2?

Co się stanie, jeśli rozpocznę ustawianie boostów na wartości takie jak 75.0? lub 500.0?

Edit: Poprawiono formatowanie

Odpowiedz

6

proszę zobaczyć Lucene Similarity Documentation dla wzoru. Zasadniczo wszystkie inne czynniki są równe, a ustalenie podwyżki dokumentu do wartości 1,1 da mu wynik o 10% wyższy w porównaniu z identycznym dokumentem o wartości 1,0. Jeśli masz zestaw dokumentów, które powinny być nieodłącznie preferowane w wyszukiwaniu, może to być dobry pomysł. Należy zauważyć, że zwiększenie liczby dokumentów jest atrybutem indeksowania, co uniemożliwia zmianę zwiększenia dokumentu bez ponownego indeksowania. Istnieją inne ważne czynniki w zakresie punktacji - w tym wyniki meczu, normy itp. Aby uzyskać szczegółowe informacje, patrz: Debugging Relevance Issues in Search.

+1

Należy jednak pamiętać, że zwiększenie liczby dokumentów i pól kończy się zakodowane w jednym bajcie, z 3-bitową mantysą - więc różnica poniżej 25% może w końcu zostać całkowicie niezauważona. – jsalvata

2

Dodanie do tego, co powiedział Yuval. Ta wartość jest funkcją wzmocnienia pola & wzmocnienia dokumentu. Wartości doładowania są kodowane w jednym bajcie. Tak więc precyzja może zostać utracona podczas przechowywania tej wartości. Debugowanie za pomocą Searcher.Explain() pomogłoby uzyskać odpowiednią ilość doładowania.

Jeśli chcesz zachować wartość doładowania (jest to użyteczne, na przykład, gdy chcesz odtworzyć indeks z bieżącego indeksu), możesz dodać go do zapisanego pola.

2

Ważne jest, aby pamiętać o podwyższaniu poziomu ryzyka, aby nie traktować go osobno, należy traktować go jako element globalnej strategii, sporządzić listę wszystkich kryteriów stosowanych do uzyskania trafności, a następnie uporządkować te kryteria. Zdefiniuj związek między każdym z tych kryteriów. Czy regularnie indeksujesz ponownie, czy właśnie dodajesz nowe dokumenty, jeśli regularnie indeksujesz ponownie, możesz pozwolić sobie na dostrojenie kryteriów poboru dokumentów, jeśli nie, musisz dokładnie to przemyśleć.

Powiązane problemy