I rozumie, że dany zestaw niezależnych obserwacji największej wiarygodności Estymator (lub równoważnie MAP o płaskich / jednolity wcześniej), który identyfikuje Parametry \ mathbf {θ} , które wytwarzają model dystrybucji p_ {wzór} \ left (\, \ cdot \,; \ mathbf {θ} \ right) najlepiej pasujące do tych obserwacji
lub wygodniej
i zobacz rolę, jaką może odgrywać w definiowaniu funkcji utraty dla wieloklasowych głębokich sieci neuronowych, w której odpowiada parametrom sieci możliwym do wyszkolenia (np. obserwacje to pary aktywacji wejściowych i odpowiadające im prawidłowe etykiety klas , = { }, biorąc
Nie rozumiem, w jaki sposób odnosi się to do tak zwanej „entropii krzyżowej” (wektoryzowanego) prawidłowego wyjścia, , i odpowiednich aktywacji wyjściowych sieci, , które są stosowane w praktyce, gdy błąd pomiaru / straty podczas treningu . Istnieje kilka powiązanych problemów: a ( x ( i ) ; θ )H( o ( i ) ; θ )=- y ( i ) ⋅ l o g
Aktywacje „jako prawdopodobieństwa”
Jednym z kroków w ustalaniu związku między MLE a entropią krzyżową jest użycie aktywacji wyjściowych „tak jakby” były prawdopodobieństwami. Ale nie jest dla mnie jasne, że tak jest, a przynajmniej że są.
Przy obliczaniu błędu szkolenia - w szczególności nazywając go „stratą z entropii krzyżowej” - zakłada się, że (po normalizacji aktywacji sumuje się do 1)
lub
abyśmy mogli pisać
a zatem
Ale choć z pewnością sprawia to, że prawdopodobieństwo (o ile cokolwiek jest), to jednak nie nakłada żadnych ograniczeń na inne aktywacje.
Czy naprawdę można powiedzieć, że to PMF? Czy jest coś, co sprawia, że w rzeczywistości nie jest prawdopodobieństwem (a jedynie „polubieniem” ich )? a y ( i ) ( x ( i ) ; θ M L )
Ograniczenie do kategoryzacji
Kluczowy krok powyżej w zrównaniu MLE z entropią krzyżową opiera się całkowicie na strukturze „one-hot” z która charakteryzuje (jednoznakowy) problem uczenia się w wielu klasach. Każda inna struktura dla uniemożliwiłaby przejście z do .y ( i ) (1) (3)
Czy równanie MLE i minimalizacji krzyżowej entropii jest ograniczone do przypadków, w których są „one-hot”?
Różne prawdopodobieństwa szkolenia i prognozowania
Podczas przewidywania prawie zawsze tak jest
co skutkuje poprawnymi prawdopodobieństwami przewidywania, które różnią się od prawdopodobieństw wyuczonych podczas szkolenia, chyba że jest to wiarygodne
Czy tak jest zawsze w niezawodny sposób? Czy to jest przynajmniej w przybliżeniu prawda? Czy jest jakiś inny argument, który uzasadnia to równanie wartości wyuczonej aktywacji w pozycji etykiety z prawdopodobieństwem, że występuje tam maksymalna wartość wyuczonej aktywacji?
Entropia i teoria informacji
Nawet zakładając, że powyższe obawy zostały rozwiązane, a aktywacje są poprawnymi PMF (lub można je w znaczący sposób traktować jako takie), więc rola odgrywana przez entropię krzyżową w obliczeniach jest bezproblemowa, nie jest jasne, że ja, dlaczego rozmowa o entropii jest pomocna lub znacząca , skoro entropia Shanona dotyczy określonego rodzaj kodowania , którego nie używa się do szkolenia sieci. a( x ( i ) ; θ M L )
Jaką rolę odgrywa entropia teorii informacji w interpretacji funkcji kosztu, w przeciwieństwie do zwykłego dostarczenia narzędzia (w postaci entropii krzyżowej) do obliczenia (odpowiadającego MLE)?
softmax_cross_entropy_with_logits
: obliczają a zatem który definiuje sieć „zaprojektowaną” do generowania prawdopodobieństw (przynajmniej w miejscu etykiety). Nie? θ M L ( O )