Zakłopotanie i entropia krzyżowa dla modeli n-gramowych


10

Próbowanie zrozumienia związku między entropią krzyżową a zakłopotaniem. Na ogół dla modelu M , Perplexity (M) = 2 ^ entropii (M) . Czy ta relacja obowiązuje dla wszystkich różnych n-gramów, tj. Unigram, bigram itp.?


To właściwie definicja zakłopotania; , co wynika z niego;)Πi=1N1P(wi|w1,...wi1)N
WavesWashSands

Odpowiedzi:


9

Tak, zakłopotanie jest zawsze równe dwóm mocy entropii. Nie ma znaczenia, jaki masz model, n-gram, unigram lub sieć neuronowa.

Istnieje kilka powodów, dla których ludzie modelujący język lubią zakłopotanie zamiast po prostu używać entropii. Jednym z nich jest to, że z powodu wykładnika poprawa zakłopotania „wydaje się”, że jest bardziej znacząca niż równoważna poprawa entropii. Innym jest fakt, że zanim zaczęli używać zakłopotania, złożoność modelu językowego zgłoszono za pomocą uproszczonego pomiaru współczynnika rozgałęzienia, który jest bardziej podobny do zakłopotania niż do entropii.


1

Zgadzam się z odpowiedzią @Aaron z niewielką modyfikacją:

Nie zawsze jest równa dwóm mocy entropii. W rzeczywistości będzie (podstawa do logów) do potęgi entropii. Jeśli użyłeś e jako swojej bazy, byłaby to e ^ entropia.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.