Intuicyjnie, dlaczego entropia krzyżowa jest miarą odległości dwóch rozkładów prawdopodobieństwa?

Dla dwóch dyskretnych rozkładów i , entropia krzyżowa jest zdefiniowana jako $p$ $q$

H (p, q) = - \sum_{x} p (x) \log q (x) .

$H(p,q)=-\sum_x p(x)\log q(x).$

Zastanawiam się, dlaczego byłby to intuicyjny pomiar odległości między dwoma rozkładami prawdopodobieństwa?

Widzę, że jest entropią , która mierzy „zaskoczenie” . jest miarą, która częściowo zastępuje przez . Nadal nie rozumiem intuicyjnego znaczenia definicji. $H(p,p)$ $p$ $p$ $H(p,q)$ $p$ $q$

probability distributions cross-entropy

— Kadistar
źródło

Polecam przyjrzeć się matematycznej definicji metryki (i odległości). zwykle przestrzeganie tych właściwości jest minimalną rzeczą, jaką powinna podążać funkcja, ponieważ jest to odległość. Mam nadzieję, że to pomoże. Chociaż wydaje się, że . Intuicyjnie, ponieważ jest to funkcja będąca częścią rozbieżności KL, przyjmuję, że jest to rozbieżność p i q przesunięta przez entropię p. Choć to tylko przypuszczenie. Również rozbieżność nie jest metryką / odległością, więc byłbym zaskoczony, jeśli Cross Entropy jest.

H (p, q) = H (p) + D_{K L} (p | | q)

$H(p,q) = H(p) + D_{KL}(p || q )$

— Charlie Parker

Zatem zrozumienie rozbieżności Kullback_leibler pomaga zrozumieć entropię krzyżową: stats.stackexchange.com/questions/188903/...

— kjetil b halvorsen

Oto świetny film wyjaśniający KL Divergence w jasny i prosty sposób: youtube.com/watch?v=ErfnhcEV1O8

— Katherine Chen

Sprawdź, czy ta „Intuicja stojąca za Cross Entropy” pomaga: medium.com/@siddharth.4oct/…

— Siddharth Roy

Minimalizowanie entropii krzyżowej jest często stosowane jako cel uczenia się w modelach generatywnych, w których p jest rozkładem prawdziwym, a q jest rozkładem uczenia się.

Entropia krzyżowa p i q jest równa entropii p plus dywergencja KL między p i q.

$H(p, q) = H(p) + D_{KL}(p||q)$

Możesz myśleć o jako stałej, ponieważ pochodzi bezpośrednio z danych treningowych i nie jest uczony przez model. Tak więc ważny jest tylko termin dywergencji KL. Motywacją do rozbieżności KL jako odległości między rozkładami prawdopodobieństwa jest to, że informuje ona o tym, ile bitów informacji uzyskano przez zastosowanie rozkładu p zamiast przybliżenia q. $H(p)$ $p$

Należy zauważyć, że rozbieżność KL nie jest właściwą miarą odległości. Po pierwsze, nie jest symetryczna w p i q. Jeśli potrzebujesz metryki odległości do rozkładów prawdopodobieństwa, będziesz musiał użyć czegoś innego. Ale jeśli używasz słowa „odległość” nieformalnie, możesz użyć dywergencji KL.

— Aaron
źródło

dlaczego możesz myśleć o p jako stałej? Czego się uczysz"? q? Oryginalne pytanie nie mówiło nic o nauce, więc chciałbym lepiej zrozumieć, co miałeś na myśli :)

— Charlie Parker

zredagowałem go, aby był bardziej przejrzysty. p jest rozkładem pochodzącym z danych treningowych, a q jest uczony przez model.

— Aaron,