Próbowanie zrozumienia związku między entropią krzyżową a zakłopotaniem. Na ogół dla modelu M , Perplexity (M) = 2 ^ entropii (M) . Czy ta relacja obowiązuje dla wszystkich różnych n-gramów, tj. Unigram, bigram itp.?
Próbowanie zrozumienia związku między entropią krzyżową a zakłopotaniem. Na ogół dla modelu M , Perplexity (M) = 2 ^ entropii (M) . Czy ta relacja obowiązuje dla wszystkich różnych n-gramów, tj. Unigram, bigram itp.?
Odpowiedzi:
Tak, zakłopotanie jest zawsze równe dwóm mocy entropii. Nie ma znaczenia, jaki masz model, n-gram, unigram lub sieć neuronowa.
Istnieje kilka powodów, dla których ludzie modelujący język lubią zakłopotanie zamiast po prostu używać entropii. Jednym z nich jest to, że z powodu wykładnika poprawa zakłopotania „wydaje się”, że jest bardziej znacząca niż równoważna poprawa entropii. Innym jest fakt, że zanim zaczęli używać zakłopotania, złożoność modelu językowego zgłoszono za pomocą uproszczonego pomiaru współczynnika rozgałęzienia, który jest bardziej podobny do zakłopotania niż do entropii.
Zgadzam się z odpowiedzią @Aaron z niewielką modyfikacją:
Nie zawsze jest równa dwóm mocy entropii. W rzeczywistości będzie (podstawa do logów) do potęgi entropii. Jeśli użyłeś e jako swojej bazy, byłaby to e ^ entropia.