Jak w przypadku wygładzania Kneser-Ney obsługiwane są niewidoczne słowa?

15

Z tego, co widziałem, formuła wygładzania Knesera-Neya (drugiego rzędu) jest w jakiś sposób podana jako

$\begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align}$

ze współczynnikiem normalizującym $\lambda(w_{n-1})$ podanym jako

$\begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align}$

oraz prawdopodobieństwo kontynuacji słowa $P_{cont}(w_n)$ $w_n$

$\begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align}$

gdzie to liczba kontekstów widzieliśmy w lub, prościej, liczba różnych wyrazów poprzedzających dane słowo . Z tego, co zrozumiałem, formułę można stosować rekurencyjnie. $N_{1+}\left(\bullet w\right)$ $w$ $\bullet$ $w$

Teraz dobrze radzi sobie ze znanymi słowami w nieznanych kontekstach dla różnych długości n-gramów, ale nie wyjaśnia, co zrobić, gdy są słowa spoza słownika. Próbowałem podążać za tym przykładem, który stwierdza, że w kroku rekursji dla unigramów, . Następnie dokument wykorzystuje to - cytując Chena i Goodmana - do uzasadnienia powyższej formuły jako . $P_{cont}(/) = P^0_{KN}(/) = \frac{1}{V}$ $P^1_{KN}(w) = P_{cont}(w)$

Nie widzę jednak, jak to działa w obecności nieznanego słowa . W tych przypadkach ponieważ, oczywiście, nieznane słowo nie kontynuuje niczego w odniesieniu do zestawu szkoleniowego. Podobnie liczba n-gramów będzie wynosić . $w = \text{unknown}$ $P_{cont}(\text{unknown}) = \frac{0}{\text{something}}$ $C\left(w_{n-1}, \text{unknown}\right) = 0$

Ponadto cały może wynosić zero, jeśli zostanie napotkana sekwencja nieznanych słów - powiedzmy trygram słów OOD. $\sum_{w'} C\left(w_{n-1}, w'\right)$

czego mi brakuje?

— sunside
źródło

Ja też walczę z KN. Myślę, że prawdopodobieństwo niewidzialnego bigramu P (w1w2) może cofnąć się do prawdopodobieństwa kontynuacji ostatniego unigramu w2. Kiedy masz niewidzialny unigram, nie masz nic. Co zrobic nastepnie? Nie wiem

— momobo

W tej chwili próbuję wdrożyć KN i utknąłem z tym samym problemem. Czy któreś z was udało się znaleźć rozwiązanie?

— jbaiter

Powróciłem do wygładzania Good-Turinga dla niewidzialnych unigramów (dopasowanie funkcji mocy do częstotliwości i częstotliwości częstotliwości) ... z różnymi wynikami.

— sunside

6

Dan Jurafsky opublikował rozdział o modelach N-Gram, który mówi trochę o tym problemie:

Po zakończeniu rekursji unigramy są interpolowane z równomiernym rozkładem:

$\begin{align} P_{KN}(w) = \frac{\max(c_{KN}(w)-d,0)}{\sum_{w'}c_{KN}(w')}+\lambda(\epsilon)\frac{1}{|V|} \end{align}$

Jeśli chcemy dołączyć nieznane słowo <UNK>, jest ono po prostu zawarte w zwykłym słownictwie z liczbą zero, a zatem jego prawdopodobieństwo będzie następujące:

$\begin{align} \frac{\lambda(\epsilon)}{|V|} \end{align}$

Próbowałem dowiedzieć się, co to znaczy, ale nie jestem pewien, czy oznacza po prostu . Jeśli tak jest, i zakładasz, że gdy liczba zmienia się na zero, być może zmienia się na , zgodnie z: $\epsilon$ $\lim_{x\rightarrow0}x$ $\lambda(\epsilon)$ $d$

$\begin{align} \lambda(w_{i-1}) = \frac{d}{c(w_{i-1})}\vert\{w:c(w_{i-1},w)>0\}\vert \end{align}$

wtedy nieznane słowo otrzymuje tylko ułamek rabatu, tj .:

$\begin{align} \frac{\lambda(\epsilon)}{|V|} = \frac{d}{|V|} \end{align}$

W ogóle nie jestem pewien tej odpowiedzi, ale chciałem ją znaleźć na wypadek, gdyby wzbudziła ona jeszcze więcej przemyśleń.

Aktualizacja: Kopiąc trochę dalej, wydaje się, że jest zwykle używany do oznaczenia pustego ciągu („”), ale nadal nie jest jasne, jak to wpływa na obliczanie . $\epsilon$ $\lambda$ wciąż jest moim najlepszym przypuszczeniem $\frac{d}{|V|}$

— abroekhof
źródło

2

Dobra odpowiedź, ale tak jak ty nie jestem w 100% pewny. Zaimplementowałem wersję skryptu perl research.microsoft.com/en-us/um/redmond/groups/srg/papers/... w pythonie - ale zdałem sobie sprawę, że działa on tak jak jest, jeśli masz zamknięte słownictwo (problem 0 prob ) - tzn. wszystkie unigramy testowe również są w pociągu. Jak sugeruje Jan lagunita.stanford.edu/c4x/Engineering/CS-224N/asset/slp4.pdf Wymieniłem Każde słowo w pierwszej instancji <UNK> podczas obróbki wstępnej. Jednak podczas partycjonowania niektóre testowe unigramy nie są w pociągu, takie jak „goofedup”. Więc użyłem d / | V | tutaj. Dzięki!

— Josh Morel

1

Istnieje wiele sposobów trenowania modelu, <UNK>choć Jurafsky sugeruje, aby wybrać te słowa, które pojawiają się bardzo rzadko podczas treningu, i po prostu je zmienić <UNK>.

Następnie po prostu trenuj prawdopodobieństwa, jak zwykle.

Zobacz ten film od 3:40 -

https://class.coursera.org/nlp/lecture/19

Innym podejściem jest po prostu rozważenie słowa jako <UNK>pierwszego, gdy jest ono widoczne na treningu, chociaż z mojego doświadczenia wynika, że podejście to przypisuje zbyt dużą masę prawdopodobieństwa <UNK>.

— Niespokojny
źródło

0

Kilka myśli, ale jestem daleki od bycia ekspertem w tej sprawie, więc nie zamierzam udzielać odpowiedzi na pytanie, ale je analizować.

$\lambda(\epsilon)$ $\lambda(\epsilon)$

λ (ϵ) = 1 - \frac{\sum_{w} m a x (C_{K N} (w) - d, 0)}{\sum_{w^{'}} C_{K N} (w)}

$\lambda(\epsilon)=1-\frac{\sum_w{max(C_{KN}(w) - d, 0)}}{\sum_{w'}{C_{KN}(w)}}$

C_{K N} (w)

$C_{KN}(w)$

Inną opcją byłoby oszacowanie <unk>prawdopodobieństwa metodami wymienionymi przez Randy'ego i traktowanie go jak zwykłego tokena.

$\frac{\lambda(\epsilon)}{|V|}$

— Daniel Villegas
źródło

Odpowiedzi powinny dotyczyć rzeczywistych odpowiedzi.

— Michael R. Chernick