Mój podręcznik podaje idf jako gdzie
- : liczba dokumentów
- : liczba dokumentów zawierających termin
Wikipedia wymienia tę formułę jako wygładzoną wersję rzeczywistego . Rozumiem to: waha się od do co wydaje się intuicyjne.
Ale przechodzi z do co wydaje się takie dziwne ...
Wiem trochę o wygładzaniu z modelowania językowego, ale dodam coś do licznika jak również w mianowniku, ponieważ martwisz się masą prawdopodobieństwa. Ale dodanie nie ma dla mnie sensu. Co staramy się tutaj osiągnąć?