1. NIEZBĘDNE PRAWDOPODOBIEŃSTWA.
W następnych dwóch sekcjach tej notatki przeanalizowano problemy „zgadnij, co jest większe” i „dwie koperty” przy użyciu standardowych narzędzi teorii decyzji (2). Takie podejście, choć proste, wydaje się być nowe. W szczególności identyfikuje zestaw procedur decyzyjnych dla problemu dwóch kopert, które są wyraźnie lepsze od procedur „zawsze zmieniaj” lub „nigdy nie zmieniaj”.
Część 2 wprowadza (standardową) terminologię, pojęcia i notację. Analizuje wszystkie możliwe procedury decyzyjne w celu „odgadnięcia, który problem jest większy”. Czytelnicy zaznajomieni z tym materiałem mogą pominąć tę sekcję. W sekcji 3 zastosowano podobną analizę do problemu dwóch kopert. W sekcji 4 wnioski podsumowano kluczowe punkty.
Wszystkie opublikowane analizy tych zagadek zakładają, że istnieje rozkład prawdopodobieństwa rządzący możliwymi stanami przyrody. To założenie nie jest jednak częścią układanek. Kluczową ideą tych analiz jest to, że odrzucenie tego (nieuzasadnionego) założenia prowadzi do prostego rozwiązania pozornych paradoksów w tych łamigłówkach.
2. PROBLEM „ZGADŹ SIĘ, ŻE WIĘKSZY”.
Eksperymentatorowi powiedziano, że różne liczby rzeczywiste x 1x1 i x 2x2 są zapisane na dwóch kartkach papieru. Patrzy na numer na losowo wybranym poślizgu. Opierając się tylko na tej jednej obserwacji, musi zdecydować, czy jest to mniejsza czy większa z dwóch liczb.
Proste, ale otwarte problemy, takie jak prawdopodobieństwo, są znane z tego, że są mylące i sprzeczne z intuicją. W szczególności istnieją co najmniej trzy różne sposoby, w jakie prawdopodobieństwo wchodzi w obraz. Aby to wyjaśnić, przyjmijmy formalny eksperymentalny punkt widzenia (2).
Rozpocznij od podania funkcji straty . Naszym celem będzie zminimalizowanie jego oczekiwań, w sensie zdefiniowanym poniżej. Dobrym wyborem jest wyrównanie straty równej 1,1 gdy eksperymentator zgadnie poprawnie, a 0 w0 przeciwnym razie. Oczekiwaniem na tę funkcję straty jest prawdopodobieństwo błędnego zgadnięcia. Zasadniczo, poprzez przypisywanie różnych kar niewłaściwym domysłom, funkcja straty odzwierciedla cel odgadywania poprawnie. Oczywiście przyjęcie funkcji straty jest tak samo arbitralne jak przyjęcie wcześniejszego rozkładu prawdopodobieństwa na x 1x1 i x 2x2, ale jest bardziej naturalny i fundamentalny. Kiedy stajemy przed decyzją, naturalnie bierzemy pod uwagę konsekwencje bycia dobrym lub złym. Jeśli tak czy inaczej nie ma żadnych konsekwencji, po co się tym przejmować? Podejmujemy domniemane rozważenia dotyczące potencjalnej straty za każdym razem, gdy podejmujemy (racjonalną) decyzję, i dlatego korzystamy z wyraźnego rozważenia straty, podczas gdy wykorzystanie prawdopodobieństwa do opisania możliwych wartości na kartkach papieru jest niepotrzebne, sztuczne i… zobaczymy —- może uniemożliwić nam uzyskanie użytecznych rozwiązań.
Teoria decyzji modeluje wyniki obserwacji i ich analizę. Wykorzystuje trzy dodatkowe obiekty matematyczne: przestrzeń próbki, zbiór „stanów natury” i procedurę decyzyjną.
Próbka SS składa się ze wszystkich możliwych obserwacji; tutaj można go zidentyfikować za pomocą RR (zbiór liczb rzeczywistych).
Stany natury ΩΩ to możliwe rozkłady prawdopodobieństwa rządzące wynikiem eksperymentu. (Jest to pierwszy sens, w którym możemy mówić o „prawdopodobieństwie” zdarzenia). W przypadku problemu „zgadnij, który jest większy” są to rozkłady dyskretne przyjmujące wartości o różnych liczbach rzeczywistych x 1x1 i x 2x2 z jednakowymi prawdopodobieństwami z 1212 przy każdej wartości. ΩΩ można sparametryzować za pomocą{ω=(x1,x2)∈R×R| x1>x2}. {ω=(x1,x2)∈R×R | x1>x2}.
Przestrzeń decyzyjna to zbiór binarny Δ = { mniejszy , większy }Δ={smaller,larger} możliwych decyzji.
W tych kategoriach funkcja stratna jest funkcją o wartościach rzeczywistych zdefiniowaną na Ω × ΔΩ×Δ . Mówi nam, jak „zła” jest decyzja (drugi argument) w porównaniu z rzeczywistością (pierwszy argument).
Najbardziej ogólną procedurę decyzja δδ dostępne eksperymentatora jest losowo jeden: wartości dla każdego wyniku doświadczalnego jest rozkład prawdopodobieństwa na hemibursztynianuΔ . Oznacza to, że decyzja, którą należy podjąć po zaobserwowaniu wyniku x,x niekoniecznie jest określona, ale powinna być wybierana losowo zgodnie z rozkładem δ ( x )δ(x) . (Jest to drugi sposób, w jaki może być zaangażowane prawdopodobieństwo).
Gdy ΔΔ ma tylko dwa elementy, każdą procedurę losową można zidentyfikować na podstawie prawdopodobieństwa, które przypisuje ona z góry określonej decyzji, którą konkretnie uważamy za „większą”.
Fizyczny spinner wdraża taką binarną randomizowaną procedurę: swobodnie obracający się wskaźnik zatrzyma się w górnym obszarze, odpowiadającym jednej decyzji w ΔΔ , z prawdopodobieństwem δδ , a w przeciwnym razie zatrzyma się w lewym dolnym obszarze z prawdopodobieństwem 1 - δ ( x )1−δ(x) . Błystka jest całkowicie określana przez określenie wartości δ ( x ) ∈ [ 0 , 1 ]δ(x)∈[0,1] .
Dlatego procedurę decyzyjną można traktować jako funkcję
δ ′ : S → [ 0 , 1 ] ,
δ′:S→[0,1],
gdzie
Pr δ ( x ) (większy)= δ ′ (x) i Pr δ ( x ) (mniejszy)=1- δ ′ (x).
Prδ(x)(larger)=δ′(x) and Prδ(x)(smaller)=1−δ′(x).
I odwrotnie, każda taka funkcja δ ′δ′ określa losową procedurę decyzyjną. Randomizowane decyzje obejmują decyzje deterministyczne w szczególnym przypadku, w którym zakres δ ′δ′ leży w { 0 , 1 }{0,1} .
Powiedzmy, że kosztem procedury decyzyjnej δδ dla wyniku xx jest oczekiwana strata δ ( x )δ(x) . Oczekiwanie dotyczy rozkładu prawdopodobieństwa δ ( x )δ(x) w przestrzeni decyzyjnej ΔΔ . Każdy stan natury ωω (który, przypomnijmy, jest dwumianowym rozkładem prawdopodobieństwa w przestrzeni próbki SS ) określa oczekiwany koszt dowolnej procedury δδ ; to ryzyko od hemibursztynianuδ do Ohmω , ryzyko δ ( ω )Riskδ(ω). Oczekuje się tutaj stanu natury ωω .
Procedury decyzyjne są porównywane pod względem funkcji ryzyka. Gdy stan natury jest naprawdę nieznany, εε i δδ są dwiema procedurami, a ryzyko ε ( ω ) ≥ ryzyko δ ( ω )Riskε(ω)≥Riskδ(ω) dla wszystkich ωω , wówczas nie ma sensu stosowanie procedury εε , ponieważ procedura δδ nigdy nie jest gorsza ( i może być lepszy w niektórych przypadkach). Taka procedura εε jest niedopuszczalna; w przeciwnym razie jest to dopuszczalne. Często istnieje wiele dopuszczalnych procedur. Uważamy, że którykolwiek z nich jest „dobry”, ponieważ żaden z nich nie może być konsekwentnie realizowany za pomocą innej procedury.
Zauważ, że nie wprowadzono wcześniejszej dystrybucji ΩΩ („mieszana strategia dla CC ” w terminologii (1)). Jest to trzeci sposób, w jaki prawdopodobieństwo może stanowić część problemu. Wykorzystanie go sprawia, że obecna analiza jest bardziej ogólna niż analiza (1) i odniesień, a jednocześnie jest prostsza.
Tabela 1 ocenia ryzyko, gdy prawdziwy stan przyrody podaje ω = ( x 1 , x 2 ) . ω=(x1,x2). Przypomnij sobie, że x 1 > x 2 .x1>x2.
Tabela 1.
Decyzja:Większe powiększenie mniejszy mniejszy Wyniki Prawdopodobieństwo prawdopodobieństwo strat prawdopodobieństwo straty kosztów x 1 1 / 2 δ ' ( x 1 ), 0 1 - δ ' ( x 1 ), 1 1 - δ ' ( x 1 ) x 2 1 / 2 hemibursztynianu ' ( x 2 ) 1 1 - δ ′( x 2 ) 0 1 - δ ′ ( x 2 )
Decision:Outcomex1x2Probability1/21/2LargerProbabilityδ′(x1)δ′(x2)LargerLoss01SmallerProbability1−δ′(x1)1−δ′(x2)SmallerLoss10Cost1−δ′(x1)1−δ′(x2)
Ryzyko ( x 1 , x 2 ) : ( 1 - δ ′ ( x 1 ) + δ ′ ( x 2 ) ) / 2.
Risk(x1,x2): (1−δ′(x1)+δ′(x2))/2.
W tych kategoriach pojawia się problem „zgadnij, co jest większe”
Biorąc pod uwagę, że nic nie wiesz o x 1 i x 2 , poza tym, że są one różne, czy możesz znaleźć procedurę decyzyjną δ, dla której ryzyko [ 1 - δ ′ ( max ( x 1 , x 2 ) ) + δ ′ ( min ( x 1 , x 2 ) ) ] / 2 jest na pewno mniejsza niż 1x1x2δ[1–δ′(max(x1,x2))+δ′(min(x1,x2))]/22 ?12
To stwierdzenie jest równoważne wymaganiu δ ′ ( x ) > δ ′ ( y ) ilekroć x > y . Stąd konieczne i wystarczające jest, aby procedura decyzyjna eksperymentatora była określona przez jakąś ściśle rosnącą funkcję δ ′ : S → [ 0 , 1 ] . Ten zestaw procedur obejmuje, ale jest większy niż wszystkie „mieszane strategie Q ” z 1 . Jest wieleδ′(x)>δ′(y)x>y.δ′:S→[0,1].Q losowych procedur decyzyjnych, które są lepsze niż jakakolwiek nieandomizowana procedura!
3. PROBLEM „DWÓCH KOPERTÓW”.
Zachęcające jest to, że ta prosta analiza ujawniła duży zestaw rozwiązań problemu „zgadnij, który jest większy”, w tym dobre, które nie zostały wcześniej zidentyfikowane. Zobaczmy, co to samo podejście może ujawnić w stosunku do drugiego problemu, przed którym stoimy, problemu „dwóch kopert” (lub „problemu pudełkowego”, jak się go czasami nazywa). Dotyczy to gry rozgrywanej przez losowe wybranie jednej z dwóch kopert, z których jedna ma o dwa razy więcej pieniędzy niż druga. Po otwarciu koperty i obserwowaniu ilości xx pieniędzy, gracz decyduje, czy zachować pieniądze w nieotwartej kopercie („zmienić”), czy zachować pieniądze w otwartej kopercie. Można by pomyśleć, że zamiana i brak zamiany byłyby równie akceptowalnymi strategiami, ponieważ gracz jest równie niepewny, która koperta zawiera większą ilość. Paradoksem jest to, że przełączanie wydaje się być opcja lepsza, ponieważ oferuje „równie prawdopodobny” alternatywy między wypłat z 2 x oraz x / 2 , którego oczekiwana wartość 5 x / 4 przekroczy wartość w otwartej kopercie. Zauważ, że obie te strategie są deterministyczne i stałe.2xx/2,5x/4
W tej sytuacji możemy formalnie napisać
S={x∈R | x>0},Ω={Discrete distributions supported on {ω,2ω} | ω>0 and Pr(ω)=12},andΔ={Switch,Do not switch}.
SΩΔ={x∈R | x>0},={Discrete distributions supported on {ω,2ω} | ω>0 and Pr(ω)=12},and={Switch,Do not switch}.
As before, any decision procedure δδ can be considered a function from SS to [0,1],[0,1], this time by associating it with the probability of not switching, which again can be written δ′(x)δ′(x). The probability of switching must of course be the complementary value 1–δ′(x).1–δ′(x).
Strata, pokazana w tabeli 2 , jest ujemna z wypłaty gry. Jest to funkcja prawdziwego stanu natury ω , wyniku x (który może wynosić albo ω lub 2 ω ) oraz decyzji, która zależy od wyniku.ωxω2ω
Tabela 2.
Strata StrataOutcome(x)SwitchDo not switchCostω−2ω−ω−ω[2(1−δ′(ω))+δ′(ω)]2ω−ω−2ω−ω[1−δ′(2ω)+2δ′(2ω)]
Outcome(x)ω2ωLossSwitch−2ω−ωLossDo not switch−ω−2ωCost−ω[2(1−δ′(ω))+δ′(ω)]−ω[1−δ′(2ω)+2δ′(2ω)]
In addition to displaying the loss function, Table 2 also computes the cost of an arbitrary decision procedure δδ. Because the game produces the two outcomes with equal probabilities of 1212, the risk when ωω is the true state of nature is
Riskδ(ω)=−ω[2(1−δ′(ω))+δ′(ω)]/2+−ω[1−δ′(2ω)+2δ′(2ω)]/2=(−ω/2)[3+δ′(2ω)−δ′(ω)].
Riskδ(ω)=−ω[2(1−δ′(ω))+δ′(ω)]/2+−ω[1−δ′(2ω)+2δ′(2ω)]/2=(−ω/2)[3+δ′(2ω)−δ′(ω)].
A constant procedure, which means always switching (δ′(x)=0δ′(x)=0) or always standing pat (δ′(x)=1δ′(x)=1), will have risk −3ω/2−3ω/2. Any strictly increasing function, or more generally, any function δ′δ′ with range in [0,1][0,1] for which δ′(2x)>δ′(x)δ′(2x)>δ′(x) for all positive real x,x, determines a procedure δδ having a risk function that is always strictly less than −3ω/2−3ω/2 and thus is superior to either constant procedure, regardless of the true state of nature ωω! The constant procedures therefore are inadmissible because there exist procedures with risks that are sometimes lower, and never higher, regardless of the state of nature.
Comparing this to the preceding solution of the “guess which is larger” problem shows the close connection between the two. In both cases, an appropriately chosen randomized procedure is demonstrably superior to the “obvious” constant strategies.
These randomized strategies have some notable properties:
There are no bad situations for the randomized strategies: no matter how the amount of money in the envelope is chosen, in the long run these strategies will be no worse than a constant strategy.
No randomized strategy with limiting values of 00 and 11 dominates any of the others: if the expectation for δδ when (ω,2ω)(ω,2ω) is in the envelopes exceeds the expectation for εε, then there exists some other possible state with (η,2η)(η,2η) in the envelopes and the expectation of εε exceeds that of δδ .
The δδ strategies include, as special cases, strategies equivalent to many of the Bayesian strategies. Any strategy that says “switch if xx is less than some threshold TT and stay otherwise” corresponds to δ(x)=1δ(x)=1 when x≥T,δ(x)=0x≥T,δ(x)=0 otherwise.
What, then, is the fallacy in the argument that favors always switching? It lies in the implicit assumption that there is any probability distribution at all for the alternatives. Specifically, having observed xx in the opened envelope, the intuitive argument for switching is based on the conditional probabilities Prob(Amount in unopened envelope | xx was observed), which are probabilities defined on the set of underlying states of nature. But these are not computable from the data. The decision-theoretic framework does not require a probability distribution on ΩΩ in order to solve the problem, nor does the problem specify one.
This result differs from the ones obtained by (1) and its references in a subtle but important way. The other solutions all assume (even though it is irrelevant) there is a prior probability distribution on ΩΩ and then show, essentially, that it must be uniform over S.S. That, in turn, is impossible. However, the solutions to the two-envelope problem given here do not arise as the best decision procedures for some given prior distribution and thereby are overlooked by such an analysis. In the present treatment, it simply does not matter whether a prior probability distribution can exist or not. We might characterize this as a contrast between being uncertain what the envelopes contain (as described by a prior distribution) and being completely ignorant of their contents (so that no prior distribution is relevant).
4. CONCLUSIONS.
In the “guess which is larger” problem, a good procedure is to decide randomly that the observed value is the larger of the two, with a probability that increases as the observed value increases. There is no single best procedure. In the “two envelope” problem, a good procedure is again to decide randomly that the observed amount of money is worth keeping (that is, that it is the larger of the two), with a probability that increases as the observed value increases. Again there is no single best procedure. In both cases, if many players used such a procedure and independently played games for a given ωω, then (regardless of the value of ωω) on the whole they would win more than they lose, because their decision procedures favor selecting the larger amounts.
In both problems, making an additional assumption-—a prior distribution on the states of nature—-that is not part of the problem gives rise to an apparent paradox. By focusing on what is specified in each problem, this assumption is altogether avoided (tempting as it may be to make), allowing the paradoxes to disappear and straightforward solutions to emerge.
REFERENCES
(1) D. Samet, I. Samet, and D. Schmeidler, One Observation behind Two-Envelope Puzzles. American Mathematical Monthly 111 (April 2004) 347-351.
(2) J. Kiefer, Introduction to Statistical Inference. Springer-Verlag, New York, 1987.
sum(p(X) * (1/2X*f(X) + 2X(1-f(X)) ) = X
, gdzie f (X) jest prawdopodobieństwem, że pierwsza koperta będzie większa, biorąc pod uwagę dowolny konkretny X.