KL Strata z jednostką Gaussa

10

Wdrażam VAE i zauważyłem w Internecie dwie różne implementacje uproszczonej rozbieżności Gaussa KL dla jednej zmiennej. Oryginalna rozbieżność, jak tutaj, jest

K. {L.}_{l o s s} = \log (\frac{σ_{2)}}{σ_{1}}) + \frac{σ_{1}^{2)} + (μ_{1} - μ_{2)})^{2)}}{2) σ_{2)}^{2)}} - \frac{1}{2)}

$KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2}$ Jeśli założymy, że nasz przeor jest jednostką gaussowską tj

μ_{2} = 0

$\mu_2=0$ i

σ_{2} = 1

$\sigma_2=1$ , upraszcza to do

K. {L.}_{l o s s} = - \log (σ_{1}) + \frac{σ_{1}^{2)} + μ_{1}^{2)}}{2)} - \frac{1}{2)}

$KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2}$

K. {L.}_{l o s s} = - \frac{1}{2)} (2) \log (σ_{1}) - σ_{1}^{2)} - μ_{1}^{2)} + 1)

$KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1)$ I tutaj leży moje zamieszanie. Chociaż znalazłem kilka niejasnych repozytoriów github z powyższą implementacją, najczęściej używam:

= - \frac{1}{2)} (\log (σ_{1}) - σ_{1} - μ_{1}^{2)} + 1)

$=-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1)$ Na przykład w oficjalnym samouczku autokodera Keras . Moje pytanie brzmi zatem: czego mi brakuje między tymi dwoma? Główną różnicą jest upuszczenie współczynnika 2 na logarytmie i nie kwadrat wariancji. Analitycznie wykorzystałem to drugie z sukcesem, na ile to warte. Z góry dziękuję za wszelką pomoc!

— groovyDragon
źródło

7

Zauważ, że zastępując $\sigma_1$ z $\sigma_1^2$ w ostatnim równaniu odzyskujesz poprzednie (tj $\log(\sigma_1) - \sigma_1 \rightarrow 2\log(\sigma_1) - \sigma_1^2$ ). Doprowadziło mnie to do wniosku, że w pierwszym przypadku koder służy do przewidywania wariancji, podczas gdy w drugim przypadku służy do przewidywania odchylenia standardowego.

Oba preparaty są równoważne, a cel pozostaje niezmieniony.

— F. Evlangeli
źródło

Nie sądzę, że może być tak, że są one równoważne. Tak, oba są zminimalizowane, gdy wynosi zero

μ

$\mu$ i jednostka

σ

$\sigma$ . Jednak w pierwotnym równaniu (zawierającym wariancję) kara za ruch

σ

$\sigma$ od jedności jest znacznie większa niż w drugim równaniu (na podstawie odchylenia standardowego). Kara za zmiany w

μ

$\mu$ jest taki sam dla obu, a błąd rekonstrukcji byłby taki sam, więc użycie drugiej wersji radykalnie zmienia względne znaczenie odlotów

σ

$\sigma$ z jedności. czego mi brakuje?

— TheBamf

0

Uważam, że odpowiedź jest prostsza. W VAE ludzie zwykle używają wielowymiarowego rozkładu normalnego, który ma macierz kowariancji $\Sigma$ zamiast wariancji $\sigma^2$ . To wygląda na zagmatwane w kodzie, ale ma pożądaną formę.

Tutaj można znaleźć wyprowadzenie dywergencji KL dla wielowymiarowych rozkładów normalnych: Wyprowadzanie straty dywergencji KL dla VAE

— Dmitrij Grebenyuk
źródło