Jak interpretować entropię różnicową?

Niedawno przeczytałem ten artykuł na temat entropii dyskretnego rozkładu prawdopodobieństwa. Opisuje ładny sposób myślenia o entropii jako oczekiwanej liczbie bitów (przynajmniej przy użyciu w definicji entropii) potrzebnej do zakodowania wiadomości, gdy kodowanie jest optymalne, biorąc pod uwagę rozkład prawdopodobieństwa użytych słów. $\log_2$

Jednak w przypadku ciągłego przypadku, takiego jak tutaj, uważam, że ten sposób myślenia się psuje, ponieważ dla dowolnego ciągłego rozkładu prawdopodobieństwa (proszę mnie poprawić, jeśli to źle), więc ja zastanawiałem się, czy istnieje dobry sposób myślenia o tym, co oznacza ciągła entropia, tak jak w przypadku dyskretnym. $\sum_x p(x) = \infty$ $p(x)$

entropy information-theory

— dippynark
źródło

Czy próbowałeś przeczytać artykuły w Wikipedii na temat entropii i entropii różnicowej?

— ttnphns

Rozkład ciągły nie ma funkcji masy prawdopodobieństwa. Analog w przypadku ciągłym jest całką gęstości prawdopodobieństwa, a całka w całym zakresie x wynosi 1.

— Michael R. Chernick

@MichaelChernick Nie powiedziałem, że tak, ale sposób myślenia o dyskretnej sprawie opiera się na fakcie, że suma jest równa 1.

— dippynark

@ttnphns nie, nie mam, ale sprawdzę je teraz, dzięki.

— dippynark

Zobacz także stats.stackexchange.com/questions/66186/…, aby zapoznać się z interpretacją entropii Shannona. Niektóre pomysły można przenieść.

— kjetil b halvorsen

Nie ma interpretacji entropii różnicowej, która byłaby tak znacząca lub użyteczna jak entropia. Problem z ciągłymi zmiennymi losowymi polega na tym, że ich wartości zwykle mają 0 prawdopodobieństwa, a zatem wymagałoby nieskończonej liczby bitów do zakodowania.

Jeśli spojrzysz na granicę dyskretnej entropii poprzez pomiar prawdopodobieństwa odstępów , otrzymasz $[n\varepsilon, (n + 1)\varepsilon[$

- \int p (x) \log_{2} p (x) d x - \log_{2} ε

$-\int p(x) \log_2 p(x) \, dx - \log_2 \varepsilon$

a nie różnicowa entropia. Ta ilość jest w pewnym sensie bardziej znacząca, ale rozejdzie się do nieskończoności, gdy będziemy przyjmować coraz mniejsze interwały. Ma to sens, ponieważ będziemy potrzebować coraz więcej bitów do zakodowania, w którym z wielu przedziałów spada wartość naszej losowej wartości.

Bardziej użyteczną wielkością dla ciągłych rozkładów jest względna entropia (również rozbieżność Kullbacka-Leiblera). W przypadku dystrybucji dyskretnych:

D_{KL} [P | | Q] = \sum_{x} P (x) \log_{2} \frac{P (x)}{Q (x)} .

$D_\text{KL}[P || Q] = \sum_x P(x) \log_2 \frac{P(x)}{Q(x)}.$

Mierzy liczbę dodatkowych bitów używanych, gdy prawdziwym rozkładem jest , ale używamy bitów do kodowania . Możemy wziąć limit względnej entropii i dojść do $P$ $-\log Q_2(x)$ $x$

D_{KL} [p ∣∣ q] = \int p (x) \log_{2} \frac{p (x)}{q (x)} d x,

$D_\text{KL}[p \mid\mid q] = \int p(x) \log_2 \frac{p(x)}{q(x)} \, dx,$

ponieważ anuluje się. W przypadku dystrybucji ciągłych odpowiada to liczbie dodatkowych bitów używanych w limicie nieskończenie małych pojemników. Zarówno dla ciągłego, jak i dyskretnego rozkładu, jest to zawsze nieujemne. $\log_2 \varepsilon$

Teraz może myśleć różnicowego entropii ujemnego względnego entropii między i nieznormalizowanych gęstości , $p(x)$ $\lambda(x) = 1$

- \int p (x) \log_{2} p (x) d x = - D_{KL} [p ∣∣ λ] .

$-\int p(x) \log_2 p(x) \, dx = -D_\text{KL}[p \mid\mid \lambda].$

Jego interpretacja byłaby różnicą liczby bitów wymaganych przy użyciu bitów do zakodowania tego interwału zamiast tego z bitów . Nawet jeśli to pierwsze byłoby optymalne, różnica ta może być teraz ujemna, ponieważ oszukuje (nie integrując z 1) i dlatego może przypisać mniej bitów niż teoretycznie możliwe. $-\log_2 \int_{n\varepsilon}^{(n + 1)\varepsilon} p(x) \, dx$ $n$ $-\log \varepsilon$ $\lambda$

Zobacz przemówienie Sergio Verdu, aby uzyskać świetne wprowadzenie do względnej entropii.

— Lucas
źródło