Entropia Shannona to ilość spełniająca zbiór relacji.
Krótko mówiąc, logarytm ma sprawić, że będzie rosnąć liniowo wraz z rozmiarem systemu i „zachowywać się jak informacja”.
Pierwszy oznacza, że entropia rzutu monetą razy to razy entropia rzutu monetą:nn
−∑i=12n12nlog(12n)=−∑i=12n12nnlog(12)=n(−∑i=1212log(12))=n.
Lub po prostu zobacz, jak to działa, gdy rzucasz dwiema różnymi monetami (być może niesprawiedliwe - z główkami z prawdopodobieństwem i ogonami dla pierwszej monety, a i dla drugiej)
więc właściwości logarytmu (logarytm produktu jest sumą logarytmów) są kluczowe.p1p2q1q2
−∑i=12∑j=12piqjlog(piqj)=−∑i=12∑j=12piqj(log(pi)+log(qj))
=−∑i=12∑j=12piqjlog(pi)−∑i=12∑j=12piqjlog(qj)=−∑i=12pilog(pi)−∑j=12qjlog(qj)
Ale również entropia Rényi ma tę właściwość (jest to entropia parametryzowana przez liczbę rzeczywistą , która staje się entropią Shannona dla ).αα→1
Nadchodzi jednak druga właściwość - entropia Shannona jest wyjątkowa, ponieważ dotyczy informacji. Aby uzyskać intuicyjne odczucie, możesz spojrzeć na
jako średnią z .
H=∑ipilog(1pi)
log(1/p)
Możemy wywołać informacje. Dlaczego? Ponieważ jeśli wszystkie zdarzenia wystąpią z prawdopodobieństwem , oznacza to, że istnieją zdarzenia . Aby stwierdzić, które zdarzenie się wydarzyło, musimy użyć bitów (każdy bit podwaja liczbę zdarzeń, które możemy odróżnić).log(1/p)p1/plog(1/p)
Możesz odczuwać zaniepokojenie „OK, jeśli wszystkie zdarzenia mają takie samo prawdopodobieństwo, sensowne jest użycie jako miary informacji. Ale jeśli nie, to dlaczego uśrednianie informacji ma jakiś sens?” - i jest to naturalny problem.log(1/p)
Okazuje się jednak, że ma to sens - twierdzenie Shannona o kodzie źródłowym mówi, że ciąg z nieskorelowanymi literami z prawdopodobieństwami o długości nie może być skompresowany (średnio) do ciągu binarnego krótszego niż . I faktycznie, możemy użyć kodowania Huffmana do skompresowania łańcucha i zbliżenia się do .{pi}innHn HnH
Zobacz też: