2014-11-21 13 views

Odpowiedz

13

To niekoniecznie jest tak, że bardziej występowanie terminu w dokumencie więcej jest znaczenie. ... udział częstotliwości terminowej w trafności dokumentu jest w istocie funkcją podliniową ... stąd log przybliża tę funkcję podliniową ...

to samo dotyczy również idf ... linear Funkcja idf może zwiększać zbyt dużą liczbę punktów dokumentu z wysokimi warunkami idf (co może być rzadkie t ermsy z powodu błędów ortograficznych) ... funkcja podliniowa działa znacznie lepiej ...

19

Odpowiedź Debasis jest poprawna. Nie jestem pewien, dlaczego przegrał.

Oto intuicja: Jeśli terminem częstotliwości słowa "komputer" w doc1 jest 10, a doc2 jest 20, możemy powiedzieć, że doc2 jest bardziej odpowiedni niż doc1 dla słowa "komputer".

Jednak jeśli termin częstotliwość tego samego słowa, "komputer" dla doc1 wynosi 1 milion, a doc2 to 2 miliony, w tym momencie nie ma już wiele różnicy w sensie istotnym, ponieważ oba zawierają bardzo wysokie wartości. liczyć na określenie "komputer".

Podobnie jak w przypadku odpowiedzi Debasis, dodanie dziennika ma na celu zignorowanie znaczenia terminu o wysokiej częstotliwości, np. Przy użyciu log base 2 liczba 1 miliona zostanie zmniejszona do 19,9!

Dodajemy również 1 do dziennika (tf), ponieważ gdy tf jest równe 1, log (1) wynosi zero. dodając je, rozróżniamy tf = 0 i tf = 1.

Mam nadzieję, że ta pomoc!

Powiązane problemy