Jensen Shannon Divergence vs. Kullback-Leibler Divergence?


14

Wiem, że dywergencja KL nie jest symetryczna i nie można jej uważać za miarę. Jeśli tak, to dlaczego jest używane, gdy JS Divergence spełnia wymagane właściwości metryki?

Czy istnieją scenariusze, w których można zastosować dywergencję KL, ale nie dywergencję JS lub odwrotnie?


Oba są używane, tylko to zależy od kontekstu. Gdy jasne jest, że konieczne jest zastosowanie ścisłej miary, np. Po przeprowadzeniu klastrowania, JS jest lepszym wyborem. Z drugiej strony przy wyborze modelu powszechne jest użycie AIC opartego na KL. Wagi podobne mają dobrą interpretację, dla której JS albo nie może dostarczyć odpowiednika, albo jeszcze nie zyskał popularności.
James

Odpowiedzi:


5

Znalazłem bardzo dojrzałą odpowiedź na Quora i po prostu umieściłem ją tutaj dla osób, które szukają tutaj:

Rozbieżność Kullbacka-Leiblera ma kilka fajnych właściwości, z których jedną jest 𝐾𝐿[𝑞;𝑝] rodzaj obszarów 𝑞(𝑥) których 𝑞 ( 𝑥 ) ma masę 𝑝(𝑥) niż zerowa, a 𝑝 ( 𝑥 ) ma masę zerową. Może to wyglądać jak błąd, ale w niektórych sytuacjach jest to funkcja.

Jeśli próbujesz znaleźć przybliżenia dla złożonego (trudnego do uzyskania) rozkładu 𝑝(𝑥) za pomocą ( możliwego do przyjęcia) rozkładu przybliżonego 𝑞(𝑥) , chcesz być absolutnie pewien, że jakiekolwiek 𝑥, które byłyby bardzo nieprawdopodobne do wyciągnięcia z 𝑝(𝑥) byłoby również bardzo mało prawdopodobne, aby wyciągnąć z 𝑞(𝑥) . To, że KL ma tę właściwość, można łatwo pokazać: w 𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)] jest 𝑞 ( 𝑥 ) 𝑙 𝑜 𝑔 [ 𝑞 ( ) ] . Gdy 𝑞 (𝑥) jest małe, ale𝑝(𝑥) nie jest w porządku. Ale gdy𝑝(𝑥) jest małe, rośnie ono bardzo szybko, jeśli𝑞(𝑥) również nie jest małe. Jeśli więc wybierzesz𝑞(𝑥) aby zminimalizować𝐾𝐿[𝑞;𝑝] , jest bardzo nieprawdopodobne, że𝑞(𝑥) przypisze dużo masy do regionów, w których𝑝(𝑥)

𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑝(𝑥)


1

Rozbieżność KL ma jasną interpretację teoretyczną informacji i jest dobrze znana; ale pierwszy raz słyszę, że symetryzacja dywergencji KL nazywa się dywergencją JS. Powodem, dla którego rozbieżność JS nie jest tak często stosowana, jest prawdopodobnie to, że jest mniej znana i nie oferuje niezbędnych właściwości.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.