Nie ma interpretacji entropii różnicowej, która byłaby tak znacząca lub użyteczna jak entropia. Problem z ciągłymi zmiennymi losowymi polega na tym, że ich wartości zwykle mają 0 prawdopodobieństwa, a zatem wymagałoby nieskończonej liczby bitów do zakodowania.
Jeśli spojrzysz na granicę dyskretnej entropii poprzez pomiar prawdopodobieństwa odstępów , otrzymasz[nε,(n+1)ε[
−∫p(x)log2p(x)dx−log2ε
a nie różnicowa entropia. Ta ilość jest w pewnym sensie bardziej znacząca, ale rozejdzie się do nieskończoności, gdy będziemy przyjmować coraz mniejsze interwały. Ma to sens, ponieważ będziemy potrzebować coraz więcej bitów do zakodowania, w którym z wielu przedziałów spada wartość naszej losowej wartości.
Bardziej użyteczną wielkością dla ciągłych rozkładów jest względna entropia (również rozbieżność Kullbacka-Leiblera). W przypadku dystrybucji dyskretnych:
DKL[P||Q]=∑xP(x)log2P(x)Q(x).
Mierzy liczbę dodatkowych bitów używanych, gdy prawdziwym rozkładem jest , ale używamy bitów do kodowania . Możemy wziąć limit względnej entropii i dojść doP−logQ2(x)x
DKL[p∣∣q]=∫p(x)log2p(x)q(x)dx,
ponieważ anuluje się. W przypadku dystrybucji ciągłych odpowiada to liczbie dodatkowych bitów używanych w limicie nieskończenie małych pojemników. Zarówno dla ciągłego, jak i dyskretnego rozkładu, jest to zawsze nieujemne.log2ε
Teraz może myśleć różnicowego entropii ujemnego względnego entropii między i nieznormalizowanych gęstości ,p(x)λ(x)=1
−∫p(x)log2p(x)dx=−DKL[p∣∣λ].
Jego interpretacja byłaby różnicą liczby bitów wymaganych przy użyciu bitów do zakodowania tego interwału zamiast tego z bitów . Nawet jeśli to pierwsze byłoby optymalne, różnica ta może być teraz ujemna, ponieważ oszukuje (nie integrując z 1) i dlatego może przypisać mniej bitów niż teoretycznie możliwe.−log2∫(n+1)εnεp(x)dxn−logελ
Zobacz przemówienie Sergio Verdu, aby uzyskać świetne wprowadzenie do względnej entropii.