To naprawdę nie jest moja dziedzina, więc niektóre rozważania:
Zacznę od koncepcji zaskoczenia . Co to znaczy być zaskoczonym? Zazwyczaj oznacza to, że wydarzyło się coś, czego nie oczekiwano. Zaskocz więc koncepcję probabilistyczną i jako taką można ją objaśnić (pisał o tym IJ Good). Zobacz także Wikipedia i Bayesian Surprise .
Weźmy konkretny przypadek tak / nie, coś może się zdarzyć lub nie. Dzieje się tak z prawdopodobieństwem p . Powiedz, jeśli p = 0,9 i tak się stanie, nie jesteś naprawdę zaskoczony. Jeśli p = 0,05 i tak się dzieje, jesteś nieco zaskoczony. A jeśli p = 0,0000001 i tak się dzieje, jesteś naprawdę zaskoczony. Tak więc naturalną miarą „wartości zaskoczenia w obserwowanym wyniku” jest jakaś (anty) monotoniczna funkcja prawdopodobieństwa tego, co się wydarzyło. Wydaje się naturalne (i działa dobrze ...) przyjęcie logarytmu prawdopodobieństwa tego, co się stało, a następnie wrzucamy znak minus, aby uzyskać liczbę dodatnią. Ponadto, przyjmując logarytm, koncentrujemy się na kolejności zaskoczenia, a w praktyce prawdopodobieństwa są często znane mniej więcej na zamówienie .
Definiujemy więc
Niespodzianka ( A ) = - logp ( A )
gdzie ZA jest obserwowanym wynikiem, a p ( A ) jest jego prawdopodobieństwem.
Teraz możemy zapytać, jaka jest oczekiwana niespodzianka . Niech X będzie zmienną losową Bernoulliego z prawdopodobieństwem p . Ma dwa możliwe wyniki, 0 i 1. Odpowiednimi wartościami niespodzianki jest
Niespodzianka ( 0 )Niespodzianka ( 1 )= - log( 1 - p )= - logp
więc niespodzianka przy obserwowaniuXjest sama zmienną losową z oczekiwaniami
p ⋅ - logp + ( 1 - p ) ⋅ - log( 1 - p )
i to jest --- niespodzianka! --- entropiaX! Tak więcoczekiwanie naentropię jestniespodzianką!
To pytanie dotyczy maksymalnej entropii . Dlaczego ktoś miałby chcieć stosować maksymalny rozkład entropii? Cóż, musi tak być, ponieważ chcą być maksymalnie zaskoczeni! Dlaczego ktoś miałby tego chcieć?
Można na to spojrzeć w następujący sposób: chcesz się czegoś dowiedzieć i do tego celu skonfiguruj pewne doświadczenia edukacyjne (lub eksperymenty ...). Jeśli już wiesz wszystko na ten temat, zawsze możesz doskonale przewidzieć, więc nigdy się nie zdziwisz. Wtedy nigdy nie zdobędziesz nowego doświadczenia, więc nie ucz się niczego nowego (ale wiesz już wszystko - nie ma się czego uczyć, więc jest OK). W bardziej typowej sytuacji, w której jesteś zdezorientowany, nie potrafisz doskonale przewidzieć, jest szansa na naukę! Prowadzi to do pomysłu, że możemy zmierzyć „ilość możliwego uczenia się” za pomocą oczekiwanej niespodzianki , czyli entropii. Tak więc maksymalizacja entropii jest niczym innym jak maksymalizacją możliwości uczenia się. To brzmi jak przydatna koncepcja, która może być przydatna w projektowaniu eksperymentów i takich rzeczy.
Poetyckim przykładem jest dobrze znany
Wenn einer eine reise macht, dann kann er was erzählen ...
Jeden praktyczny przykład: chcesz zaprojektować system do testów online (online, co oznacza, że nie wszyscy dostają te same pytania, pytania są wybierane dynamicznie w zależności od wcześniejszych odpowiedzi, w pewien sposób zoptymalizowane dla każdej osoby).
Jeśli zadajesz zbyt trudne pytania, aby nigdy ich nie opanować, niczego się nie uczysz. Oznacza to, że musisz obniżyć poziom trudności. Jaki jest optymalny poziom trudności, czyli poziom trudności, który maksymalizuje tempo uczenia się? Niech prawdopodobieństwo prawidłowej odpowiedzi wynosi p . Chcemy wartości p która maksymalizuje entropię Bernoulliego. Ale to p = 0,5 . Więc starasz się zadać pytania, w których prawdopodobieństwo uzyskania poprawnej odpowiedzi (od tej osoby) wynosi 0,5.
Następnie w przypadku ciągłej zmiennej losowej X . Jak możemy być zaskoczeni obserwując X ? Prawdopodobieństwo jakiegokolwiek konkretnego wyniku { X= x } wynosi zero, definicja - logp jest bezużyteczna. Będziemy jednak zaskoczeni, jeśli prawdopodobieństwo zaobserwowania czegoś takiego jak x jest małe, to znaczy, jeśli wartość funkcji gęstości fa( x ) jest mała (przy założeniu, że fa jest ciągła). To prowadzi do definicji
Niespodzianka ( x ) = - logfa( x )
Przy tej definicji oczekiwaną niespodzianką po obserwacji X jest
mi{ - logfa( X) } = - ∫fa( x ) logfa( x )rex
, który jest oczekiwany zaskoczeniem obserwowanieX jest różnica entropiaX . Może to być również postrzegane jako oczekiwane prawdopodobieństwo logarytmu.
X