Zrozumienie zastosowania logarytmów w logarytmie TF-IDF


10

Czytałem:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Ale nie potrafię zrozumieć, dlaczego formuła została zbudowana w taki sposób.

Co robię Rozumiem:

iDF powinien na pewnym poziomie zmierzyć, jak często termin S pojawia się w każdym z dokumentów, zmniejszając jego wartość, ponieważ termin pojawia się częściej.

Z tej perspektywy

iDF(S)=# of Documents# of Documents containing S

Ponadto termin częstotliwość można słusznie opisać jako

tf(S,D)=# of Occurrences of S in document D# maximum number of occurrences for any string Q in document D

Więc miara

iDF(S)×tf(S,D)

jest w pewien sposób proporcjonalne do częstotliwości pojawiania się terminu w danym dokumencie i wyjątkowości tego terminu w stosunku do zestawu dokumentów.

Czego nie rozumiem

Ale podana formuła opisuje to jako

(log(iDF(S)))(12+log(12tf(S,D)))

Chciałbym zrozumieć potrzebę logarytmów opisanych w definicji. Dlaczego oni tam są? Jaki aspekt podkreślają?

Odpowiedzi:


9

P(A,B)=P(A)P(B)log(P(A,B))=log(P(A))+log(P(B)) .

Jako link do artykułu w Wikipedii, który podajesz, uzasadnienie TF-IDF wciąż nie jest dobrze ugruntowane; jest to / była heurystyka, którą chcemy wprowadzić w rygor, a nie rygorystyczną koncepcję, którą chcemy przenieść do realnego świata. Jak wspomniał @ Anony-Mousse, bardzo dobrą lekturą na ten temat jest Robertson's Understanding Inverse Document Frequency: On theoretical arguments for IDF . Daje szeroki przegląd całego frameworka i próbuje uziemić metodologię TF-IDF do ważenia trafności wyszukiwanych haseł.


4
Pewne uzasadnienie TF-IDF można znaleźć w „Formalnym badaniu heurystyk wyszukiwania informacji”, 2004 przez Fanga, Hui i in. ( Pdf ).
Alexey Grigorev

3
Myślę, że jest to lepsze odniesienie do uzasadnień TF-IDF: Robertson, S. (2004). „Zrozumienie odwrotnej częstotliwości dokumentów: argumenty teoretyczne dla IDF”. Journal of Documentation 60 (5): 503–520.
Ma ZAKOŃCZENIE - Anony-Mousse,

Dziękuję za komentarze panów (i specjalne podziękowania dla Aleksieja za poprawienie \log, ciągle o nich zapominam); +1 do obu. Widziałem artykuł Robertsona i zastanawiałem się nad jego dodaniem; to naprawdę dobra lektura, dodam ją w głównej części.
usεr11852

@ Anony-Mousse (pdf)
Walrus the Cat

Chcę wiedzieć, dlaczego „maksymalna liczba wystąpień dowolnego ciągu Q w dokumencie D” jest używana zamiast number of occurrences for all strings in document D. Dlaczego chcemy liczby najbardziej popularnych słów zamiast liczby wszystkich słów?
Xeoncross,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.