Z tego, co widziałem, formuła wygładzania Knesera-Neya (drugiego rzędu) jest w jakiś sposób podana jako
ze współczynnikiem normalizującym podanym jako
oraz prawdopodobieństwo kontynuacji słowaw n
gdzie to liczba kontekstów widzieliśmy w lub, prościej, liczba różnych wyrazów poprzedzających dane słowo . Z tego, co zrozumiałem, formułę można stosować rekurencyjnie. w ∙ w
Teraz dobrze radzi sobie ze znanymi słowami w nieznanych kontekstach dla różnych długości n-gramów, ale nie wyjaśnia, co zrobić, gdy są słowa spoza słownika. Próbowałem podążać za tym przykładem, który stwierdza, że w kroku rekursji dla unigramów, . Następnie dokument wykorzystuje to - cytując Chena i Goodmana - do uzasadnienia powyższej formuły jako . P 1 K N (w)=Pcont(w)
Nie widzę jednak, jak to działa w obecności nieznanego słowa . W tych przypadkach ponieważ, oczywiście, nieznane słowo nie kontynuuje niczego w odniesieniu do zestawu szkoleniowego. Podobnie liczba n-gramów będzie wynosić .P c o n t ( nieznany ) = 0 C(wn-1,nieznane)=0
Ponadto cały może wynosić zero, jeśli zostanie napotkana sekwencja nieznanych słów - powiedzmy trygram słów OOD.
czego mi brakuje?