Heurystycznie funkcja gęstości prawdopodobieństwa na z maksymalną entropią okazuje się być tą, która odpowiada najmniejszej wiedzy o , innymi słowy rozkład jednolity.{ x 1 , x 2 , . . , . x n }{ x1, x2), . . , . xn}{ x1, x2), . . , . xn}
Teraz, aby uzyskać bardziej formalny dowód, rozważ następujące kwestie:
Funkcja gęstości prawdopodobieństwa na jest zbiorem liczb rzeczywistych nieujemną p 1 , . . . , p n, które sumują się do 1. Entropia jest ciągłą funkcją -tuples , a te punkty leżą w zwartym podzbiorze , więc istnieje -pleple, gdzie entropia jest zmaksymalizowana. Chcemy pokazać, że dzieje się to w i nigdzie indziej.{ x1, x2), . . , . xn}p1, . . . , pn( s 1 , . . . , p n ) R n n ( 1 / n , . . . , 1 / n )n( p1, . . . , pn)Rnn( 1 / n , . . . , 1 / n )
Załóżmy, że nie są równe, powiedzmy . (Oczywiście ) Znajdziemy nową gęstość prawdopodobieństwa o wyższej entropii. Wynika z tego, że ponieważ entropia jest zmaksymalizowana przy pewnym -pleju, entropia jest wyjątkowo zmaksymalizowana przy -ple z dla wszystkich .p 1 < p 2 n ≠ 1 n n p i = 1 / n ipjotp1< p2)n ≠ 1nnpja= 1 / nja
Od , dla małego pozytywnego mamy . Entropia minus entropia jest równa ε s +1 + ε < s 2 - ε { s +1 + ε , P 2 - ε , str 3 , . . . , P n } { P 1 , P 2 , str 3 , . . . , p n }p1< p2)εp1+ ε < p2)- ε{ p1+ ε , p2)- ε , p3), . . . , pn}{ p1, p2), p3), . . . , pn}
ε-p1log(1+ε
- p1log( p1+ εp1) -εlog( p1+ ε ) - p2)log( p2)- εp2)) +dziennikε( p2)- ε )
Aby ukończyć dowód, chcemy pokazać, że jest to pozytywne dla wystarczająco małego . Przepisz powyższe równanie jako
ε- p1log( 1 + εp1) -ε ( logp1+ log( 1 + εp1) ) - p2)log( 1 - εp2))+ ε ( logp2)+ log( 1 - εp2)) )
Przypominając, że dla małych , powyższe równanie to
co jest dodatnie, gdy jest wystarczająco mały, ponieważ .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log( 1 + x ) = x + O ( x2))x
- ε - ε logp1+ ε + ε logp2)+ O ( ε2)) = ε log( p2)/ p1) + O ( ε2))
εp1< p2)
Mniej rygorystyczny dowód to:
Rozważ najpierw następujący lemat:
Niech i jest ciągłe funkcje gęstości prawdopodobieństwa na przedziale
w rzeczywistych numerów, z i o . Mamy
jeśli istnieją dwie całki. Ponadto istnieje równość wtedy i tylko wtedy, gdy dla wszystkich .q ( x ) I p ≥ 0 q > 0 I - ∫ I p log p d x ≤ - ∫ I p log q d x p ( x ) = q ( x ) xp ( x )q( x )jap ≥ 0q> 0ja
- ∫jap logp dx ≤ - ∫jap logqrex
p ( x ) = q( x )x
Teraz niech będzie dowolną funkcją gęstości prawdopodobieństwa na , przy . Niech dla wszystkich ,
który jest entropią . Dlatego nasza lemat mówi , z równością wtedy i tylko wtedy, gdy jest jednolite.{ x 1 , . . . , x n } p i = p ( x i ) q ip{ x1, . . . , xn}pja= p ( xja)i - n ∑ i = 1 p i log q i = n ∑ i = 1 p i log n = log n q h ( p ) ≤ h ( q )qja= 1 / nja
- ∑i = 1npjalogqja= ∑i = 1npjalogn = logn
qh ( p ) ≤ h ( q)p
Ponadto wikipedia ma krótką dyskusję na ten temat: wiki