Zrozumienie zastosowania logarytmów w logarytmie TF-IDF

Czytałem:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Ale nie potrafię zrozumieć, dlaczego formuła została zbudowana w taki sposób.

Co robię Rozumiem:

iDF powinien na pewnym poziomie zmierzyć, jak często termin S pojawia się w każdym z dokumentów, zmniejszając jego wartość, ponieważ termin pojawia się częściej.

Z tej perspektywy

i D F (S) = \frac{# of Documents}{# of Documents containing S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

Ponadto termin częstotliwość można słusznie opisać jako

t f (S, D) = \frac{# of Occurrences of S in document D}{# maximum number of occurrences for any string Q in document D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

Więc miara

i D F (S) \times t f (S, D)

$iDF(S) \times tf(S,D)$

jest w pewien sposób proporcjonalne do częstotliwości pojawiania się terminu w danym dokumencie i wyjątkowości tego terminu w stosunku do zestawu dokumentów.

Czego nie rozumiem

Ale podana formuła opisuje to jako

(\log (i D F (S))) (\frac{1}{2} + \log (\frac{1}{2} t f (S, D)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

Chciałbym zrozumieć potrzebę logarytmów opisanych w definicji. Dlaczego oni tam są? Jaki aspekt podkreślają?

— frogeyedpeas
źródło

$P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$ .

Jako link do artykułu w Wikipedii, który podajesz, uzasadnienie TF-IDF wciąż nie jest dobrze ugruntowane; jest to / była heurystyka, którą chcemy wprowadzić w rygor, a nie rygorystyczną koncepcję, którą chcemy przenieść do realnego świata. Jak wspomniał @ Anony-Mousse, bardzo dobrą lekturą na ten temat jest Robertson's Understanding Inverse Document Frequency: On theoretical arguments for IDF . Daje szeroki przegląd całego frameworka i próbuje uziemić metodologię TF-IDF do ważenia trafności wyszukiwanych haseł.

— usεr11852
źródło

Pewne uzasadnienie TF-IDF można znaleźć w „Formalnym badaniu heurystyk wyszukiwania informacji”, 2004 przez Fanga, Hui i in. ( Pdf ).

— Alexey Grigorev

Myślę, że jest to lepsze odniesienie do uzasadnień TF-IDF: Robertson, S. (2004). „Zrozumienie odwrotnej częstotliwości dokumentów: argumenty teoretyczne dla IDF”. Journal of Documentation 60 (5): 503–520.

— Ma ZAKOŃCZENIE - Anony-Mousse,

Dziękuję za komentarze panów (i specjalne podziękowania dla Aleksieja za poprawienie \log, ciągle o nich zapominam); +1 do obu. Widziałem artykuł Robertsona i zastanawiałem się nad jego dodaniem; to naprawdę dobra lektura, dodam ją w głównej części.

— usεr11852

@ Anony-Mousse (pdf)

— Walrus the Cat

Chcę wiedzieć, dlaczego „maksymalna liczba wystąpień dowolnego ciągu Q w dokumencie D” jest używana zamiast number of occurrences for all strings in document D. Dlaczego chcemy liczby najbardziej popularnych słów zamiast liczby wszystkich słów?

— Xeoncross,