Początkowo zapytałem o to w przypadku przepełnienia stosu i zostałem skierowany do tej witryny, więc oto:
Wdrażam niektóre nienadzorowane metody podsumowywania dokumentów w oparciu o selekcję / ekstrakcję treści i jestem zdezorientowany tym, co mój podręcznik nazywa „współczynnikiem wiarygodności dziennika”. Książka „ Przetwarzanie mowy i języka” Jurafsky'ego i Martina w skrócie opisuje to jako:
LLR dla słowa, ogólnie zwanego lambda (w), jest stosunkiem między prawdopodobieństwem obserwacji w zarówno do korpusu wejściowego, jak i tła, przy założeniu równych prawdopodobieństw w obu ciałach, a prawdopodobieństwem zaobserwowania w obu przy założeniu różnych prawdopodobieństw dla w na wejściu i korpusie tła.
W podziale na to mamy licznik: „prawdopodobieństwo zaobserwowania w zarówno korpusu wejściowego, jak i tła, przy założeniu równych prawdopodobieństw w obu ciałach” - Jak obliczyć, jakie prawdopodobieństwo tutaj zastosować?
oraz mianownik: „prawdopodobieństwo zaobserwowania w zarówno przy założeniu różnych prawdopodobieństw w dla korpusu wejściowego, jak i tła”. - czy jest to tak proste, jak prawdopodobieństwo wystąpienia słowa w czasach wejściowych, prawdopodobieństwo wystąpienia słowa w korpusie? dawny:
(liczba (słowo, wejście) / łączna liczba słów na wejściu) * (liczba (słowo, korpus) / łączna liczba słów w korpusie)
Przyglądałem się artykułowi, do którego odnoszą się moje książki, Accurate Methods for the Statistics of Surprise and Coincidence (Dunning 1993), ale trudno mi się odnieść do problemu obliczania wartości LLR dla poszczególnych słów w podsumowaniu opartym na ekstrakcji. Wszelkie wyjaśnienia tutaj byłyby bardzo mile widziane.