2012-05-05 19 views

Odpowiedz

12

tf jest częstotliwością utrzymujące IDF jest odwrotnością częstotliwości dokument, który otrzymuje się przez podzielenie całkowitej liczby dokumentów przez szereg dokumentów zawierających określenie, a następnie zlogarytmowaniu tego ilorazu.

wynikające efekt jest grupowanie wszystkich słów, które pochodzą z tego samego rdzenia (np grać, grać, ..), to grupa zwiększy występowanie tej łodygi ponieważ częstotliwości są obliczane za pomocą macierzyste nie słowa, Dla na przykład, jeśli masz dwa dokumenty: pierwszy zawiera "play" 2 razy i "grano" 5 razy, , a drugi dokument zawiera "play" 3 razy i "played" 1 raz jeśli wyszukasz " odtwarzanie "bez powodowania drugiego dokumentu będzie pierwsze, ponieważ ma więcej występowania słowa" gra ", a jeśli zrobisz, oba słowa będą" odtwarzane "po zakończeniu i pierwszy dokument będzie pierwszy, ponieważ zawiera on grać 7 razy, a drugi dokument zawiera macierzystych grać 4 razy.

chodzi o usuwanie odrzucanych słów, często stwierdza się we wszystkich dokumentów i nie jest pod uwagę jako słowo kluczowe dla każdego z nich, będzie miał wysoki freq bez sceny.

Powiązane problemy