Załóżmy, że jest zbiorem wzajemnie wykluczających się wyników dyskretnej zmiennej losowej, a to funkcja użyteczności, w której , itd.
Gdy jest równomiernie rozłożone i jest funkcją masy prawdopodobieństwa , Shannon entropii jest zmaksymalizowane (, a gdy jeden element wma całąmasę, entropia Shannona jest zminimalizowana (w rzeczywistości). Odpowiada to intuicji na tematsurprisalu(lubzmniejszenia niepewności) oraz wyników iniepewności(lubspodziewanego surprisalu) i zmiennych losowych:
- Kiedy jest równomiernie rozmieszczone, niepewność jest zmaksymalizowana, a im więcej wyników dla równomiernego rozkładu masy, tym bardziej jesteśmy niepewni.
- Kiedy skupia całą swoją masę w jednym wyniku, nie mamy niepewności.
- Kiedy przypisujemy wynikowi prawdopodobieństwo , nie otrzymujemy żadnych informacji („jesteśmy zaskoczeni”), kiedy faktycznie je obserwujemy.
- Kiedy przypisujemy wynikowi prawdopodobieństwo coraz bliższe , obserwacja jego faktycznego występowania staje się coraz bardziej pouczająca („zaskakująca”).
(To wszystko nie mówi nic o znacznie bardziej konkretnej - ale mniej epistemicznej - kodującej interpretacji informacji / entropii Shannona.)
Jednakże, gdy ma interpretację funkcji użytkowych , istnieje sensical interpretacja lub∑f(ω)log1 ? Wydaje mi się, że mogą istnieć:
- jeśli jako PMF reprezentuje równomierny rozkład na Ω , to f jako funkcja użyteczności odpowiada obojętności na wyniki, która nie może być większa *
- funkcja użyteczności, w której jeden wynik ma całą użyteczność, a reszta nie ma żadnej (tak wypaczonej użyteczności, jak to możliwe), odpowiada bardzo silnym preferencjom względnym - brakowi obojętności.
Czy rozwija się odniesienie do tego? Czy coś przeoczyłem na temat ograniczeń porównywania funkcji masy prawdopodobieństwa i znormalizowanych narzędzi względnych względem dyskretnych zmiennych losowych?
* Zdaję sobie sprawę z krzywych obojętności i nie widzę, w jaki sposób mogą one być odpowiednie dla mojego pytania z różnych powodów, poczynając od skupienia się na kategorycznej przestrzeni próbki i na tym, że nie jestem zainteresowany „obojętnością” per se, ale raczej jak interpretować narzędzia jako prawdopodobieństwa i jak interpretować funkcjonały na prawdopodobieństwach, gdy (dyskretny) „rozkład prawdopodobieństwa”, o którym mowa, faktycznie lub (dodatkowo) ma interpretację funkcji użyteczności.