Prawo całkowitej wariancji jako twierdzenie Pitagorasa

Załóżmy, że $X$ i $Y$ mają skończony drugi moment. W przestrzeni Hilberta zmiennych losowych z drugim momentem skończonym (z iloczynem wewnętrznym $T_1,T_2$ zdefiniowanym przez $E(T_1T_2)$ , $||T||^2=E(T^2)$ ), możemy interpretować $E(Y|X)$ w rzucie $Y$ na przestrzeni funkcji $X$ .

Wiemy również, że prawo całkowitej wariancji brzmi

V a r (Y) = E (V a r (Y | X)) + V a r (E (Y | X))

$Var(Y)=E(Var(Y|X)) + Var(E(Y|X))$

Czy istnieje sposób interpretacji tego prawa w kontekście powyższego obrazu geometrycznego? Powiedziano mi, że prawo jest takie samo jak twierdzenie Pitagorasa dla trójkąta prostokątnego o bokach $Y, E(Y|X), Y-E(Y|X)$ . Rozumiem, dlaczego trójkąt jest ustawiony pod kątem prostym, ale nie w jaki sposób twierdzenie Pitagorasa uchyla prawo całkowitej zmienności.

variance conditional-expectation

— renrenthehamster
źródło

Odpowiedzi:

Zakładam, że nie masz nic przeciwko traktowaniu trójkąta pod kątem prostym, co oznacza, że $E[Y\mid X]$ i $Y - E[Y\mid X]$ są nieskorelowanymi zmiennymi losowymi. W przypadku nieskorelowanych zmiennych losowych $A$ i $B$ ,

\begin{matrix} (1) & var (A + B) = var (A) + var (B), \end{matrix}

$\operatorname{var}(A+B) = \operatorname{var}(A) + \operatorname{var}(B),\tag{1}$ a więc, jeśli zestaw

A = Y - E [Y ∣ X]

$A = Y - E[Y\mid X]$ i

B = E [Y ∣ X]

$B = E[Y\mid X]$ więc

A + B = Y

$A+B = Y$ , otrzymujemy to

\begin{matrix} (2) & var (Y) = var (Y - E [Y ∣ X]) + var (E [Y ∣ X]) . \end{matrix}

$\operatorname{var}(Y) = \operatorname{var}(Y-E[Y\mid X]) + \operatorname{var}(E[Y\mid X]).\tag{2}$ Pozostaje pokazać, że

var (Y - E [Y ∣ X])

$\operatorname{var}(Y-E[Y\mid X])$ jest taki sam jak

E [var (Y ∣ X)]

$E[\operatorname{var}(Y\mid X)]$ dzięki czemu możemy zmienić stan

(2)

$(2)$ jako

\begin{matrix} (3) & var (Y) = E [var (Y ∣ X)] + var (E [Y ∣ X]) \end{matrix}

$\operatorname{var}(Y) = E[\operatorname{var}(Y\mid X)] + \operatorname{var}(E[Y\mid X])\tag{3}$ która jest formułą całkowitej wariancji.

Dobrze wiadomo, że oczekiwana wartość zmiennej losowej wynosi , to znaczy . Widzimy więc, że $E[Y\mid X]$ $E[Y]$ $E\biggr[E[Y\mid X]\biggr] = E[Y]$ z czego wynika, że , to znaczy Niech oznacza zmienną losową

E [A] = E [Y - E [Y ∣ X]] = E [Y] - E [E [Y ∣ X]] = 0,

$E[A] = E\biggr[Y - E[Y\mid X]\biggr] = E[Y] - E\biggr[E[Y\mid X]\biggr] = 0,$

var (A) = E [A^{2}]

$\operatorname{var}(A) = E[A^2]$

\begin{matrix} (4) & var (Y - E [Y ∣ X]) = E [(Y - E [Y ∣ X])^{2}] . \end{matrix}

$\operatorname{var}(Y-E[Y\mid X]) = E\left[(Y-E[Y\mid X])^2\right].\tag{4}$

C

$C$

, abyśmy mogli napisać, że

Ale

gdzie

(Y - E [Y ∣ X])^{2}

$(Y-E[Y\mid X])^2$

\begin{matrix} (5) & var (Y - E [Y ∣ X]) = E [C] . \end{matrix}

$\operatorname{var}(Y-E[Y\mid X]) = E[C].\tag{5}$

E [C] = E [E [C ∣ X]]

$E[C] = E\biggr[E[C\mid X]\biggr]$

Teraz,biorąc pod uwagę,że

, rozkład warunkowy

ma średnią

a więc

Innymi słowy,

E [C ∣ X] = E [(Y - E [Y ∣ X])^{2} | X] .

$E[C\mid X] = E\biggr[(Y-E[Y\mid X])^2{\bigr\vert} X\biggr].$

X = x

$X = x$

Y

$Y$

E [Y ∣ X = x]

$E[Y\mid X=x]$

E [(Y - E [Y ∣ X = x])^{2} | X = x] = var (Y ∣ X = x) .

$E\biggr[(Y-E[Y\mid X=x])^2{\bigr\vert} X=x\biggr] = \operatorname{var}(Y\mid X = x).$

więczmienna losowa

jest po prostu

. Stąd

E [C ∣ X = x] = var (Y ∣ X = x)

$E[C\mid X = x] = \operatorname{var}(Y\mid X = x)$

E [C ∣ X]

$E[C\mid X]$

var (Y ∣ X)

$\operatorname{var}(Y\mid X)$

\begin{matrix} (6) & E [C] = E [E [C ∣ X]] = E [var (Y ∣ X)], \end{matrix}

$E[C] = E\biggr[E[C\mid X]\biggr] = E[\operatorname{var}(Y\mid X)], \tag{6}$ co po podstawieniu do

pokazuje, że

To sprawia, że prawa strona

dokładnie tym, czego potrzebujemy, dlatego udowodniliśmy formułę całkowitej wariancji

(5)

$(5)$

var (Y - E [Y ∣ X]) = E [var (Y ∣ X)] .

$\operatorname{var}(Y-E[Y\mid X]) = E[\operatorname{var}(Y\mid X)].$

(2)

$(2)$

(3)

$(3)$

— Dilip Sarwate
źródło

Y - E (Y | X)

$Y-E(Y|X)$

v a r (Y - E (Y | X)) = E [Y - E (Y | X)]^{2}

$var(Y-E(Y|X))=E[Y-E(Y|X)]^2$

E v a r (Y | X) = E [E ((Y - E (Y | X))^{2} | X)] = E [Y - E (Y | X)]^{2}

$Evar(Y|X)=E[E((Y-E(Y|X))^2|X)]=E[Y-E(Y|X)]^2$

E [(Y - E [Y | X])^{2}]

$E\bigr[(Y-E[Y|X])^2\bigr ]$

Dilip, wielu probabilistów poprawnie interpretowałoby równanie @ mpiktas jako zapisane; dodatkowy zestaw nawiasów jest często pomijany. Być może moje oczy mnie oszukują, ale myślę, że jego notacja jest spójna przez cały czas. Jednak chętnie pomogę naprawić problemy, jeśli jest to pożądane. :-)

— kardynał

E X

$EX$

E X

$\mathbb EX$

X

$X$ , Zawsze mam wątpliwości

E X^{2}

$EX^2$ , zwłaszcza że PEMDAS nic o tym nie mówi. Czy oczekiwanie ma pierwszeństwo przed potęgowaniem, czy nie? Myślę, że jestem przyzwyczajony do tego, że operator oczekiwań ma zastosowanie do wszystkiego w nawiasach kwadratowych. Proszę nie edytować komentarza m [iktas, ale jeśli chcesz usunąć wszystko w tym wątku z „Przypadkowo” w moim poprzednim komentarzu, proszę śmiało.

— Dilip Sarwate

Przepraszam, @Dilip. Nie chciałem sugerować, że nie rozumiesz; Wiedziałem, że masz! Zgadzam się również, że notacja może nadawać się do dwuznaczności i dobrze jest je wskazać, kiedy się pojawią! Miałem na myśli to, że pomyślałem o drugim równaniu w komentarzu (tj.

v a r \dots

$var\ldots$ ) wyjaśnił konwencję, która była stosowana odtąd. :-)

— kardynał

Komunikat:

Twierdzenie Pitagorasa mówi o dowolnych elementach $T_1$ i $T_2$ przestrzeni produktu wewnętrznego ze skończonymi normami, takimi jak $\langle T_1,T_2\rangle = 0$ ,

\begin{matrix} (1) & | | {T.}_{1} + {T.}_{2)} | |^{2)} = | | {T.}_{1} | |^{2)} + | | {T.}_{2)} | |^{2)} . \end{matrix}

$||T_1+T_2||^2 = ||T_1||^2 + ||T_2||^2 \tag{1}.$ Innymi słowy, dla wektorów ortogonalnych kwadratowa długość sumy jest sumą kwadratów długości.

Nasz przypadek:

W naszym przypadku $T_1 = E(Y|X)$ i $T_2 = Y - E[Y|X]$ are random variables, the squared norm is $||T_i||^2 = E[T_i^2]$ and the inner product $\langle T_1,T_2\rangle = E[T_1T_2]$ . Translating $(1)$ into statistical language gives us:

\begin{matrix} (2) & E [Y^{2}] = E [{E (Y | X)}^{2}] + E [(Y - E [Y | X])^{2}], \end{matrix}

$E[Y^2] = E[\{E(Y|X)\}^2] + E[(Y - E[Y|X])^2] \tag{2},$ because

E [T_{1} T_{2}] = Cov (T_{1}, T_{2}) = 0

$E[T_1T_2] = \operatorname{Cov}(T_1,T_2) = 0$ . We can make this look more like your stated Law of Total Variance if we change

(2)

$(2)$ by...

Subtract $(E[Y])^2$ from both sides, making the left hand side $\operatorname{Var}[Y]$ ,
Noting on the right hand side that $E[\{E(Y|X)\}^2] - (E[Y])^2 = \operatorname{Var}(E[Y|X])$ ,
Noting that $E[(Y - E[Y|X])^2] = E[E\{(Y - E[Y|X])^2\}|X] = E[\operatorname{Var}(Y|X)]$ .

For details about these three bullet points see @DilipSarwate's post. He explains this all in much more detail than I do.

— Taylor
źródło