Aby zakodować zdarzenie występujące z prawdopodobieństwem , potrzebujesz przynajmniej log 2 (p bitów (dlaczego? Zobaczmoją odpowiedź na temat: Jaka jest rola logarytmu w entropii Shannona?).log2(1/p)
Zatem w optymalnym kodowaniu średnia długość zakodowanej wiadomości wynosi
czylientropia Shannonapierwotnego rozkładu prawdopodobieństwa.
∑ipilog2(1pi),
Jeśli jednak dla rozkładu prawdopodobieństwa zastosujesz kodowanie, które jest optymalne dla innego rozkładu prawdopodobieństwa Q , wówczas średnia długość zakodowanej wiadomości wynosi
∑ i p i długość_kodu ( i ) = ∑ i p i logPQ
jestentropią krzyżową, która jest większa niż∑ipilog
∑ipicode_length(i)=∑ipilog2(1qi),
∑ipilog2(1pi)
Jako przykład rozważmy alfabet czterech liter (A, B, C, D), ale z A i B o tej samej częstotliwości, a C i D w ogóle się nie pojawiają. Więc prawdopodobieństwo jestP=(12,12,0,0)
Następnie, jeśli chcemy go optymalnie zakodować, kodujemy A jako 0, a B jako 1, więc otrzymujemy jeden bit zakodowanej wiadomości na jedną literę. (I to jest właśnie entropia Shannona naszego rozkładu prawdopodobieństwa.)
PQ=(14,14,14,14)