Uogólnienie Prawa Iterowanych Oczekiwań

43

Ostatnio natknąłem się na tę tożsamość:

E [E (Y | X, Z) | X] = E [Y | X]

$E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right]$

Oczywiście jestem zaznajomiony z prostszą wersją tej reguły, a mianowicie, że ale nie byłem w stanie znaleźć uzasadnienia dla jego uogólnienie. $E \left[ E \left(Y|X \right) \right]=E \left(Y\right)$

Byłbym wdzięczny, gdyby ktoś mógł wskazać mi niezbyt techniczne odniesienie do tego faktu, a nawet lepiej, gdyby ktoś mógł przedstawić prosty dowód na ten ważny wynik.

self-study conditional-probability conditional-expectation

— JohnK
źródło

2

Jeśli sama była uwarunkowana pewnego wtedy nie ten upadek dokładnie z prostszej wersji?

y

$y$

x

$x$

— Mehrdad

36

TRAKTOWANIE NIEformalne

Należy pamiętać, że notacja, w której warunkujemy zmienne losowe, jest niedokładna, choć ekonomiczna, jako notacja. W rzeczywistości warunkujemy na sigma-algebrze, że te losowe zmienne generują. Innymi słowy, oznacza . Ta uwaga może wydawać się nie na miejscu w „Nieformalnym traktowaniu”, ale przypomina nam, że nasze byty uwarunkowane są kolekcjami zbiorów (a kiedy warunkujemy na jednej wartości, to jest to zbiór singletonów). A co zawierają te zestawy? Zawierają one informacje , z którymi możliwe wartości zmiennej losowej dostarczyć nam o tym, co może się zdarzyć z realizacją . $E[Y\mid X]$ $E[Y\mid \sigma(X)]$ $X$ $Y$
Wprowadzając pojęcie Informacji, pozwala nam myśleć (i używać) Prawa Iterowanych Oczekiwań (czasami nazywanego „Właściwością Wieży”) w bardzo intuicyjny sposób:
sigma-algebra generowana przez dwie losowe zmienne jest przynajmniej tak duży jak wygenerowany przez jedną zmienną losową: w odpowiednim znaczeniu teoretycznym. Tak więc informacja o zawarta w jest co najmniej tak duża jak odpowiednia informacja w . Teraz, jako notacja insynuacyjna, ustaw i . Następnie można zapisać LHS równania, na które patrzymy $\sigma (X) \subseteq \sigma(X,Z)$ $Y$ $\sigma(X,Z)$ $\sigma (X)$
$\sigma (X) \equiv I_x$ $\sigma(X,Z) \equiv I_{xz}$

E [E (Y | I_{x z}) | I_{x}]

$E \left[ E \left(Y|I_{xz} \right) |I_{x} \right]$ Opisując słownie powyższe wyrażenie, które mamy: "jakie jest oczekiwanie na {oczekiwana wartość danej informacji } biorąc pod uwagę, że mamy dostępne informacje tylko ? ”

Y

$Y$

I_{x z}

$I_{xz}$

I_{x}

$I_x$

Czy możemy jakoś „wziąć pod uwagę” ? Nie - wiemy tylko . Ale jeśli użyjemy tego, co mamy (ponieważ jesteśmy zobowiązani wyrażeniem, które chcemy rozwiązać), to zasadniczo mówimy rzeczy o pod operatorem oczekiwań, tj. Mówimy „ ”, nie więcej - właśnie wyczerpaliśmy nasze informacje. $I_{xz}$ $I_x$ $Y$ $E(Y\mid I_x)$

Stąd

E [E (Y | I_{x z}) | I_{x}] = E (Y | I_{x})

$E \left[ E \left(Y|I_{xz} \right) |I_{x} \right] = E\left(Y|I_{x} \right)$

Jeśli ktoś tego nie zrobi, wrócę na formalne leczenie.

(Nieco więcej) FORMALNE LECZENIE

Zobaczmy, jak dwie bardzo ważne książki teorii prawdopodobieństwa, P. Billingsley's Probability and Measure (3d ed.-1995) i D. Williams „Prawdopodobieństwo z Martingales” (1991), traktują kwestię udowodnienia „Law Of Iterated Expectations”:
Billingsley poświęca dokładnie trzy wiersze na dowód. Williams i ja cytuję, mówi

„(Właściwość Tower) jest praktycznie natychmiastowa od definicji warunkowego oczekiwania”.

To jedna linia tekstu. Dowód Billingsleya nie jest mniej nieprzejrzysty.

Mają oczywiście rację: ta ważna i bardzo intuicyjna właściwość warunkowego oczekiwania wywodzi się zasadniczo bezpośrednio (i prawie natychmiast) z jej definicji - jedynym problemem jest, podejrzewam, że tej definicji nie uczy się, a przynajmniej nie podkreśla, poza prawdopodobieństwem lub zmierz koła teoretyczne. Aby jednak przedstawić (prawie) trzy wiersze, które zawiera Prawo Iterowanych Oczekiwań, potrzebujemy definicji warunkowego oczekiwania, a raczej jego właściwości definiującej .

Niech przestrzeń prawdopodobieństwa , oraz do zabudowy zmienną losową . Niech być pod- -algebra o , . Następnie istnieje funkcja która jest -measurable, jest liczbą całkowitą i (jest to właściwość definiująca) $(\Omega, \mathcal F, \mathbf P)$ $Y$ $\mathcal G$ $\sigma$ $\mathcal F$ $\mathcal G \subseteq \mathcal F$ $W$ $\mathcal G$

E (W \cdot 1_{G}) = E (Y \cdot 1_{G}) \forall G \in G [1]

$E(W\cdot\mathbb 1_{G}) = E(Y\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal G \qquad [1]$

gdzie jest funkcją wskaźnik zestawu . Mówimy, że jest („wersją”) warunkowym oczekiwaniem dla biorąc pod uwagę , i piszemy Kluczowy szczegół, na który należy zwrócić uwagę, to to, że warunkowe oczekiwanie ma taką samą wartość oczekiwaną jako robi, a nie tylko w całym , ale w każdej podgrupie z . $1_{G}$ $G$ $W$ $Y$ $\mathcal G$ $W = E(Y\mid \mathcal G) \;a.s.$
$Y$ $\mathcal G$ $G$ $\mathcal G$

(Spróbuję teraz przedstawić, w jaki sposób właściwość Tower wywodzi się z definicji warunkowych oczekiwań).

$W$ jest matematyczną zmienną losową mierzalną. Rozpatrzmy kilka sub -algebra, np . Następnie . Tak więc, analogicznie jak poprzednio, mamy warunkowe oczekiwanie na biorąc pod uwagę , powiedzmy to charakteryzuje się $\mathcal G$ $\sigma$ $\mathcal H \subseteq \mathcal G$ $G\in \mathcal H \Rightarrow G\in \mathcal G$ $W$ $\mathcal H$ $U=E(W\mid \mathcal H) \;a.s.$

E (U \cdot 1_{G}) = E (W \cdot 1_{G}) \forall G \in H [2]

$E(U\cdot\mathbb 1_{G}) = E(W\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal H \qquad [2]$

Ponieważ , dają nam równania i $\mathcal H \subseteq \mathcal G$ $[1]$ $[2]$

E (U \cdot 1_{G}) = E (Y \cdot 1_{G}) \forall G \in H [3]

$E(U\cdot\mathbb 1_{G}) = E(Y\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal H \qquad [3]$

Ale to jest własność zdefiniowanie warunkowego oczekiwaniu danego . $Y$ $\mathcal H$ Mamy więc prawo pisać Ponieważ mamy również konstrukcję , właśnie udowodniliśmy właściwość Tower lub ogólna forma Prawa Iterowanych Oczekiwań - w ośmiu wierszach. $U=E(Y\mid \mathcal H)\; a.s.$
$U = E(W\mid \mathcal H) = E\big(E[Y\mid \mathcal G]\mid \mathcal H\big)$

— Alecos Papadopoulos
źródło

6

(+1) Jest to pomocny sposób na opisanie abstrakcyjnej i trudnej koncepcji. Uważam jednak, że wyrażenie „... nie jest większe ...” powinno być „nie jest mniejsze”. Co więcej, tę sekcję można wyjaśnić, usuwając negatywy i stosując równoległą konstrukcję, jak w „Algebrze sigma generowanej przez dwie zmienne jest co najmniej tak duża, jak ta generowana przez jedną zmienną losową ... Więc informacja o zawierała in jest co najmniej tak wielki, jak odpowiednia informacja w . "

Y

$Y$

σ (X, Z)

$\sigma(X,Z)$

σ (X)

$\sigma(X)$

— whuber

Dziękuję wam obu, CC @ Whuber. To bardzo przydatne twierdzenie.

— JohnK

@ whuber Dzięki za wykrycie tego i sugestię.

— Alecos Papadopoulos

24

Sposób, w jaki rozumiem warunkowe oczekiwania i uczę moich uczniów, jest następujący:

warunkowe oczekiwanie to zdjęcie wykonane aparatem o rozdzielczości $E[Y|\sigma(X)]$ $\sigma(X)$

Jak wspomniał Alecos Papadopoulos, notacja jest bardziej precyzyjna niż . Wzdłuż linii aparatu można myśleć o jak o oryginalnym obiekcie, np. Krajobrazie, scenerii. to zdjęcie wykonane aparatem o rozdzielczości . Oczekiwanie to operator uśredniania (operator „zamazujący”?). Scenariusz może zawierać wiele rzeczy, ale zdjęcie wykonane kamerą o niskiej rozdzielczości z pewnością sprawi, że znikną jakieś szczegóły, np. Na niebie może znajdować się UFO, które można zobaczyć gołym okiem, ale nie pojawiają się na zdjęciu wykonanym przez (iPhone 3?) $E[Y|\sigma(X)]$ $E[Y|X]$ $Y$ $E[Y|\sigma(X,Z)]$ $\sigma(X,Z)$

Jeśli rozdzielczość jest tak wysoka, że , to zdjęcie jest w stanie uchwycić każdy szczegół prawdziwej scenerii. W tym przypadku mamy . $\sigma(X,Z)=\sigma(Y)$ $E[Y|\sigma(Y)]=Y$

Teraz można postrzegać jako: za pomocą innej kamery o rozdzielczości (np. IPhone 1), która jest niższa niż (np. IPhone 3) i zrób zdjęcie na tym zdjęciu wygenerowanym przez aparat o rozdzielczości , wtedy powinno być jasne, że to zdjęcie na zdjęciu powinno być takie samo, jak gdybyś pierwotnie po prostu użyj aparatu o niskiej rozdzielczości na scenerii. $E[E[Y|\sigma(X,Z)]|\sigma(X)]$ $\sigma(X)$ $\sigma(X,Z)$ $\sigma(X,Z)$ $\sigma(X)$

To zapewnia intuicję na . W rzeczywistości ta sama intuicja mówi nam, że wciąż. Wynika to z faktu, że: jeśli twoje pierwsze zdjęcie zostało zrobione przez iPhone'a 1 (tj. W niskiej rozdzielczości), a teraz chcesz użyć lepszego aparatu (np. IPhone'a 3), aby wygenerować kolejne zdjęcie na pierwszym zdjęciu, to nie ma mowy, abyś może poprawić jakość pierwszego zdjęcia. $E[E[Y|X,Z]|X]=E[Y|X]$ $E[E[Y|X]|X,Z]=E[Y|X]$

— KevinKim
źródło

2

kocham to! :) świetne wyjaśnienie.

— jessica

1

@jessica Cieszę się, że to pomaga :-)

— Opracowanie

21

W Prawie Iterowanego Oczekiwania (LIE), , że wewnętrzne oczekiwanie jest zmienną losową, która przypadkowo jest funkcją , powiedzmy , a nie funkcją . To, że oczekiwanie tej funkcji jest równe oczekiwaniu jest konsekwencją LIE. Wszystko to jest, machając ręką, tylko twierdzeniem, że średnią wartość można znaleźć, uśredniając średnie wartości w różnych warunkach. W efekcie wszystko to jest tylko bezpośrednią konsekwencją prawa całkowitego prawdopodobieństwa. Na przykład, jeśli i $E\left[E[Y \mid X]\right] = E[Y]$ $X$ $g(X)$ $Y$ $X$ $Y$ $Y$ $Y$ $X$ $Y$ są dyskretnymi losowymi zmiennymi ze wspólnym pmf , a następnie \ scriptstyle {\ text {RV} ~ E [Y \ mid X] ~ \ text {ma wartość} ~ E [Y \ mid X = x] ~ \ text {when} ~ X = x} \ end {align} Uwaga jak to ostatnie oczekiwanie dotyczy ; $p_{X,Y}(x,y)$

\begin{aligned} E [Y] & = \sum_{y} y \cdot p_{Y} (y) & definition \\ = \sum_{y} y \cdot \sum_{x} p_{X, Y} (x, y) & write in terms of joint pmf \\ = \sum_{y} y \cdot \sum_{x} p_{Y ∣ X} (y ∣ X = x) \cdot p_{X} (x) & write in terms of conditional pmf \\ = \sum_{x} p_{X} (x) \cdot \sum_{y} y \cdot p_{Y ∣ X} (y ∣ X = x) & interchange order of summation \\ = \sum_{x} p_{X} (x) \cdot E [Y ∣ X = x] & inner sum is conditional expectation \\ = E [E [Y ∣ X]] & RV E [Y ∣ X] has value E [Y ∣ X = x] when X = x \end{aligned}

$\begin{align} E[Y] &= \sum_y y\cdot p_Y(y) &\scriptstyle{\text{definition}}\\ &= \sum_y y \cdot \sum_x p_{X,Y}(x,y) &\scriptstyle{\text{write in terms of joint pmf}}\\ &= \sum_y y \cdot \sum_x p_{Y\mid X}(y \mid X=x)\cdot p_X(x) &\scriptstyle{\text{write in terms of conditional pmf}}\\ &= \sum_x p_X(x)\cdot \sum_y y \cdot p_{Y\mid X}(y \mid X=x) &\scriptstyle{\text{interchange order of summation}}\\ &= \sum_x p_X(x)\cdot E[Y \mid X = x] &\scriptstyle{\text{inner sum is conditional expectation}}\\ &= E\left[E[Y\mid X]\right] &\scriptstyle{\text{RV}~E[Y\mid X]~\text{has value}~E[Y\mid X=x]~\text{when}~X=x} \end{align}$

X

$X$

E [Y ∣ X]

$E[Y\mid X]$ jest funkcją , a nie , ale mimo to jej średnia jest taka sama, jak średnia .

X

$X$

Y

$Y$

Y

$Y$

Uogólniona LIE że patrzysz ma na lewym , w którym wewnętrzna oczekiwanie to funkcja od dwóch zmiennych losowych i . Argument jest podobny do przedstawionego powyżej, ale teraz musimy wykazać, że zmienna losowa jest równa innej zmiennej losowej. Robimy to, patrząc na wartość gdy ma wartość . Pomijamy wyjaśnienia, mamy to $E\left[E[Y \mid X, Z] \mid X\right]$ $h(X,Z)$ $X$ $Z$ $E[Y\mid X]$ $E[Y\mid X]$ $X$ $x$

\begin{aligned} E [Y ∣ X = x] & = \sum_{y} y \cdot p_{Y ∣ X} (y ∣ X = x) \\ = \sum_{y} y \cdot \frac{p_{X, Y} (x, y)}{p_{X} (x)} \\ = \sum_{y} y \cdot \frac{\sum_{z} p_{X, Y, Z} (x, y, z)}{p_{X} (x)} \\ = \sum_{y} y \cdot \frac{\sum_{z} p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \cdot p_{X, Z} (x, z)}{p_{X} (x)} \\ = \sum_{z} \frac{p_{X, Z} (x, z)}{p_{X} (x)} \sum_{y} y \cdot p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \\ = \sum_{z} p_{Z ∣ X} (z ∣ X = x) \cdot \sum_{y} y \cdot p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \\ = \sum_{z} p_{Z ∣ X} (z ∣ X = x) \cdot E [Y ∣ X = x, Z = z) \\ = E [E [Y ∣ X, Z] ∣ X = x] \end{aligned}

$\begin{align} E[Y \mid X = x] &= \sum_y y\cdot p_{Y\mid X}(y\mid X = x)\\ &= \sum_y y \cdot \frac{p_{X,Y}(x,y)}{p_X(x)}\\ &= \sum_y y \cdot \frac{\sum_z p_{X,Y,Z}(x,y,z)}{p_X(x)}\\ &= \sum_y y \cdot \frac{\sum_z p_{Y\mid X,Z}(y \mid X=x, Z=z)\cdot p_{X,Z}(x,z)}{p_X(x)}\\ &= \sum_z \frac{p_{X,Z}(x,z)}{p_X(x)}\sum_y y \cdot p_{Y\mid X,Z}(y \mid X=x, Z=z)\\ &= \sum_z p_{Z\mid X}(z \mid X=x)\cdot \sum_y y \cdot p_{Y\mid X,Z}(y \mid X=x, Z=z)\\ &= \sum_z p_{Z\mid X}(z \mid X=x)\cdot E[Y \mid X=x, Z=z)\\ &= E\left[E[Y\mid X,Z]\mid X = x\right] \end{align}$ Zwróć uwagę, że przedostatnia prawa strona jest wzorem na warunkową oczekiwaną wartość zmiennej losowejZ] (funkcja i ) warunkowane

E [Y ∣ X, Z]

$E[Y \mid X, Z]$

X

$X$

Z

$Z$ od wartości . Ustalamy aby miał wartość , mnożąc wartości zmiennej losowej przez warunkową wartość pmf danej i sumując wszystkie takie warunki.

X

$X$

X

$X$

x

$x$

E [Y ∣ X, Z]

$E[Y \mid X, Z]$

Z

$Z$

X

$X$

Zatem dla każdej wartości zmiennej losowej wartość zmiennej losowej (którą zauważyliśmy wcześniej jest funkcją , a nie ), jest taka sama jak wartość losowa zmienna , to znaczy te dwie losowe zmienne są równe. Czy ja mógłbym Cię okłamywać? $x$ $X$ $E[Y\mid X]$ $X$ $Y$ $E\left[E[Y \mid X,Z]\mid X\right]$

— Dilip Sarwate
źródło