Czytałem:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Ale nie potrafię zrozumieć, dlaczego formuła została zbudowana w taki sposób.
Co robię Rozumiem:
iDF powinien na pewnym poziomie zmierzyć, jak często termin S pojawia się w każdym z dokumentów, zmniejszając jego wartość, ponieważ termin pojawia się częściej.
Z tej perspektywy
Ponadto termin częstotliwość można słusznie opisać jako
Więc miara
jest w pewien sposób proporcjonalne do częstotliwości pojawiania się terminu w danym dokumencie i wyjątkowości tego terminu w stosunku do zestawu dokumentów.
Czego nie rozumiem
Ale podana formuła opisuje to jako
Chciałbym zrozumieć potrzebę logarytmów opisanych w definicji. Dlaczego oni tam są? Jaki aspekt podkreślają?