Dlaczego entropia krzyżowa stała się klasyczną funkcją straty, a nie rozbieżnością Kullbecka Leiblera?


15

Entropia krzyżowa jest identyczna z dywergencją KL plus entropia rozkładu celu. KL równa się zero, gdy dwa rozkłady są takie same, co wydaje mi się bardziej intuicyjne niż entropia rozkładu docelowego, czyli taka, jaką entropia krzyżowa znajduje się w meczu.

Nie twierdzę, że w jednej z nich jest więcej informacji, z wyjątkiem tego, że ludzki pogląd może uznać zero za bardziej intuicyjne niż pozytywne. Oczywiście zwykle używa się metody oceny, aby naprawdę zobaczyć, jak dobrze zachodzi klasyfikacja. Ale czy wybór entropii krzyżowej nad KL jest historyczny?

Odpowiedzi:


12

Jeśli chodzi o problem z klasyfikacją w uczeniu maszynowym, entropia krzyżowa i dywergencja KL są równe . Jak już wspomniano w pytaniu, ogólna formuła jest następująca:

H(p,q)=H.(p)+reK.L.(p||q)

Gdzie p „rozkład„ prawdziwy ”, a q jest rozkładem szacunkowym, H(p,q) jest entropią krzyżową, H(p) jest entropią, a D jest dywergencją Kullbacka-Leiblera.

Zauważ, że w uczeniu maszynowym p jest jednorazową reprezentacją klasy prawdy gruntowej, tj.

p=[0,...,1,...,0]

który jest w zasadzie rozkładem funkcji delta . Ale entropia funkcji delta wynosi zero, stąd rozbieżność KL po prostu równa się entropii krzyżowej.

W rzeczywistości, nawet jeśli H(p) nie było 0 (np. Miękkie etykiety), jest ustalone i nie ma wpływu na gradient. Pod względem optymalizacji można go po prostu usunąć i zoptymalizować rozbieżność Kullbacka-Leiblera.


0

Entropia krzyżowa jest entropią, a nie różnicą entropii.

Bardziej naturalnym i być może intuicyjnym sposobem konceptualizacji kryteriów kategoryzacji jest relacja, a nie definicja.

H.(P.,Q)-H.(P.)=reK.L.(P.Q)=-jaP.(ja)logQ(ja)P.(ja)

Wynika to z podobieństw, zidentyfikowanych przez Claude'a Shannona i Johna von Neumanna, między termodynamiką kwantowo-mechaniczną a teorią informacji. Entropia nie jest wielkością absolutną. Jest to względna, więc nie można obliczyć ani entropii, ani entropii krzyżowej, ale ich różnicą może być albo dyskretny przypadek powyżej, albo jego ciągłe rodzeństwo poniżej.

H.(P.,Q)-H.(P.)=reK.L.(P.Q)=--p(x)logq(x)p(x)rex

Chociaż możemy zobaczyć H.(...)=...w literaturze, bez H '(...) po prawej stronie równania, nie jest technicznie dokładne. W takich przypadkach zawsze istnieje pewna implikowana entropia, do której entropia po lewej stronie jest względna.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.