Jaka jest różnica między


18

Ogólnie, jaka jest różnica między E ( X | Y )E(X|Y) i E ( X | Y = y )E(X|Y=y) ?

Poprzednia jest funkcją y,y a ostatnia jest funkcją xx ? To takie mylące ...


Hmmm ... Ta ostatnia nie powinna być funkcją x, ale liczbą! Czy się mylę?
David

Odpowiedzi:


23

Z grubsza mówiąc, różnica między E ( X Y )E(XY) i E ( X Y = y )E(XY=y) polega na tym, że ta pierwsza jest zmienną losową, podczas gdy druga (w pewnym sensie) jest realizacją E ( X Y )E(XY) . Na przykład, jeśli ( X , Y ) N ( 0 , ( 1 ρ ρ 1 ) ),

(X,Y)N(0,(1ρρ1))
to E ( X Y )E(XY) jest zmienną losową E ( X | Y ) = ρ Y .
E(XY)=ρY.
I odwrotnie, pozaobserwowaniu Y = yY=y , bardziej prawdopodobne byłoby zainteresowanie wielkością E ( X Y = y ) = ρ y,E(XY=y)=ρy która jest skalarem.

Być może wydaje się to niepotrzebną komplikacją, ale uznanie E ( X Y )E(XY) za zmienną losową samą w sobie jest tym, co sprawia, że ​​takie prawo jak wieża E ( X ) = E [ E ( X Y ) ]E(X)=E[E(XY)] ma sens - coś wewnątrz nawiasów klamrowych jest losowe, więc możemy zapytać, jakie jest jego oczekiwanie, podczas gdy E nie ma nic losowego ( X Y = y )E(XY=y) . W większości przypadków możemy mieć nadzieję na obliczenie E ( X Y = y ) = x f X Y ( x y ) d x 

E(XY=y)=xfXY(xy) dx

a następnie uzyskaj E ( X Y )E(XY) poprzez „wpięcie” losowej zmiennej YY zamiast yy w wynikowym wyrażeniu. Jak wskazano we wcześniejszym komentarzu, istnieje pewna subtelność, która może wkradać się w odniesieniu do rygorystycznego definiowania tych rzeczy i łączenia ich w odpowiedni sposób. Zdarza się to z prawdopodobieństwem warunkowym, z powodu pewnych problemów technicznych związanych z podstawową teorią.


8

Załóżmy, że XX i YY są zmiennymi losowymi.

Niech y 0y0 będzie stałą liczbą rzeczywistą, powiedzmy y 0 = 1y0=1 . Następnie E [ X | Y = Y 0 ] = E [ X | Y = 1 ],E[XY=y0]=E[XY=1] to ilość : jest uwarunkowane wartością oczekiwaną z XX ponieważ YY ma wartość 11 . Teraz zwróć uwagę na inną stałą liczbę rzeczywistą y 1y1 , powiedzmy y 1 = 1,5y1=1.5 , E. [ X Y = y 1 ] = E [ X Y = 1,5 ]E[XY=y1]=E[XY=1.5] będzie warunkową wartością oczekiwaną X,X biorąc pod uwagę Y = 1,5Y=1.5 (liczba rzeczywista). Nie ma powodu przypuszczać, że E [ X Y = 1,5 ]E[XY=1.5] i E [ X Y = 1 ]E[XY=1] mają tę samą wartość. Zatem możemy również uwzględnić E [ X Y = y ]E[XY=y] za a funkcja o wartościach rzeczywistych g ( y ),g(y) która odwzorowuje liczby rzeczywiste yy na liczby rzeczywiste E [ X Y = y ]E[XY=y] . Zauważ, że stwierdzenie w pytaniu PO, że E [ X Y = y ]E[XY=y] jest funkcją x,x jest niepoprawne: E [ X Y = y ]E[XY=y] jest funkcją yy o wartości rzeczywistej .

Z drugiej strony, E [ X | Y ]E[XY] jest zmienną losową ZZ który okazuje się być funkcją zmiennej losowej YY . Teraz, ilekroć piszemy Z = h ( Y )Z=h(Y) , rozumiemy przez to, że ilekroć zmienna losowa YY ma wartość yy , zmienna losowa ZZ ma wartość h ( y )h(y) . Ilekroć YY przyjmuje wartość yy , zmienna losowa Z = E [XY]Z=E[XY] takes on value E[XY=y]=g(y)E[XY=y]=g(y). Thus, E[XY]E[XY] is just another name for the random variable Z=g(Y)Z=g(Y). Note that E[XY]E[XY] is a function of YY (not yy as in the statement of the OP's question).

As a a simple illustrative example, suppose that XX and YY are discrete random variables with joint distribution P(X=0,Y=0)=0.1,  P(X=0,Y=1)=0.2,P(X=1,Y=0)=0.3,  P(X=1,Y=1)=0.4.

P(X=0,Y=0)P(X=1,Y=0)=0.1,  P(X=0,Y=1)=0.2,=0.3,  P(X=1,Y=1)=0.4.
Note that XX and YY are (dependent) Bernoulli random variables with parameters 0.70.7 and 0.60.6 respectively, and so E[X]=0.7E[X]=0.7 and E[Y]=0.6E[Y]=0.6. Now, note that conditioned on Y=0Y=0, XX is a Bernoulli random variable with parameter 0.750.75 while conditioned on Y=1Y=1, XX is a Bernoulli random variable with parameter 2323. If you cannot see why this is so immediately, just work out the details: for example P(X=1Y=0)=P(X=1,Y=0)P(Y=0)=0.30.4=34,P(X=0Y=0)=P(X=0,Y=0)P(Y=0)=0.10.4=14,
P(X=1Y=0)=P(X=1,Y=0)P(Y=0)=0.30.4=34,P(X=0Y=0)=P(X=0,Y=0)P(Y=0)=0.10.4=14,
and similarly for P(X=1Y=1)P(X=1Y=1) and P(X=0Y=1)P(X=0Y=1). Hence, we have that E[XY=0]=34,E[XY=1]=23.
E[XY=0]=34,E[XY=1]=23.
Thus, E[XY=y]=g(y)E[XY=y]=g(y) where g(y)g(y) is a real-valued function enjoying the properties: g(0)=34,g(1)=23.
g(0)=34,g(1)=23.

On the other hand, E[XY]=g(Y)E[XY]=g(Y) is a random variable that takes on values 3434 and 2323 with probabilities 0.4=P(Y=0)0.4=P(Y=0) and 0.6=P(Y=1)0.6=P(Y=1) respectively. Note that E[XY]E[XY] is a discrete random variable but is not a Bernoulli random variable.

As a final touch, note that E[Z]=E[E[XY]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].

E[Z]=E[E[XY]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].
That is, the expected value of this function of YY, which we computed using only the marginal distribution of YY, happens to have the same numerical value as E[X]E[X] !! This is an illustration of a more general result that many people believe is a LIE: E[E[XY]]=E[X].
E[E[XY]]=E[X].

Sorry, that's just a small joke. LIE is an acronym for Law of Iterated Expectation which is a perfectly valid result that everyone believes is the truth.


3

E(X|Y)E(X|Y) is the expectation of a random variable: the expectation of XX conditional on YY. E(X|Y=y)E(X|Y=y), on the other hand, is a particular value: the expected value of XX when Y=y.

Think of it this way: let X represent the caloric intake and Y represent height. E(X|Y) is then the caloric intake, conditional on height - and in this case, E(X|Y=y) represents our best guess at the caloric intake (X) when a person has a certain height Y=y, say, 180 centimeters.


4
I believe your first sentence should replace "distribution" with "expectation" (twice).
Glen_b -Reinstate Monica

4
E(XY) isn't the distribution of X given Y; this would be more commonly denotes by the conditional density fXY(xy) or conditional distribution function. E(XY) is the conditional expectation of X given Y, which is a Y-measurable random variable. E(XY=y) might be thought of as the realization of the random variable E(XY) when Y=y is observed (but there is the possibility for measure-theoretic subtlety to creep in).
guy

1
@guy Your explanation is the first accurate answer yet provided (out of three offered so far). Would you consider posting it as an answer?
whuber

@whuber I would but I'm not sure how to strike the balance between accuracy and making the answer suitably useful to OP and I'm paranoid about getting tripped up on technicalities :)
guy

@Guy I think you have already done a good job with the technicalities. Since you are sensitive about communicating well with the OP (which is great!), consider offering a simple example to illustrate--maybe just a joint distribution with binary marginals.
whuber

1

E(X|Y) is expected value of values of X given values of Y E(X|Y=y) is expected value of X given the value of Y is y

Generally P(X|Y) is probability of values X given values Y, but you can get more precise and say P(X=x|Y=y), i.e. probability of value x from all X's given the y'th value of Y's. The difference is that in the first case it is about "values of" and in the second you consider a certain value.

You could find the diagram below helpful.

Bayes theorem diagram form Wikipedia


This answer discusses probability, while the question asks about expectation. What is the connection?
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.