Odpowiedź Debasis jest poprawna. Nie jestem pewien, dlaczego przegrał.
Oto intuicja: Jeśli terminem częstotliwości słowa "komputer" w doc1 jest 10, a doc2 jest 20, możemy powiedzieć, że doc2 jest bardziej odpowiedni niż doc1 dla słowa "komputer".
Jednak jeśli termin częstotliwość tego samego słowa, "komputer" dla doc1 wynosi 1 milion, a doc2 to 2 miliony, w tym momencie nie ma już wiele różnicy w sensie istotnym, ponieważ oba zawierają bardzo wysokie wartości. liczyć na określenie "komputer".
Podobnie jak w przypadku odpowiedzi Debasis, dodanie dziennika ma na celu zignorowanie znaczenia terminu o wysokiej częstotliwości, np. Przy użyciu log base 2 liczba 1 miliona zostanie zmniejszona do 19,9!
Dodajemy również 1 do dziennika (tf), ponieważ gdy tf jest równe 1, log (1) wynosi zero. dodając je, rozróżniamy tf = 0 i tf = 1.
Mam nadzieję, że ta pomoc!