Wdrażam VAE i zauważyłem w Internecie dwie różne implementacje uproszczonej rozbieżności Gaussa KL dla jednej zmiennej. Oryginalna rozbieżność, jak tutaj, jest
Wdrażam VAE i zauważyłem w Internecie dwie różne implementacje uproszczonej rozbieżności Gaussa KL dla jednej zmiennej. Oryginalna rozbieżność, jak tutaj, jest
Odpowiedzi:
Zauważ, że zastępując z w ostatnim równaniu odzyskujesz poprzednie (tj ). Doprowadziło mnie to do wniosku, że w pierwszym przypadku koder służy do przewidywania wariancji, podczas gdy w drugim przypadku służy do przewidywania odchylenia standardowego.
Oba preparaty są równoważne, a cel pozostaje niezmieniony.
Uważam, że odpowiedź jest prostsza. W VAE ludzie zwykle używają wielowymiarowego rozkładu normalnego, który ma macierz kowariancji zamiast wariancji . To wygląda na zagmatwane w kodzie, ale ma pożądaną formę.
Tutaj można znaleźć wyprowadzenie dywergencji KL dla wielowymiarowych rozkładów normalnych: Wyprowadzanie straty dywergencji KL dla VAE