Problem z dowodem warunkowego oczekiwania jako najlepszego predyktora


19

Mam problem z dowodem

E(Y|X)argming(X)E[(Yg(X))2]

które najprawdopodobniej ujawnią głębsze nieporozumienie oczekiwań i oczekiwań warunkowych.

Dowód, który znam, wygląda następująco (inną wersję tego dowodu można znaleźć tutaj )

argming(X)E[(Yg(x))2]=argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]=argming(x)E[(YE(Y|X))2+2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=argming(x)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

Dowód zwykle kontynuuje argument, który pokazuje, że 2E[(YE(Y|X))(E(Y|X)g(X))]=0 , a zatem

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

co można zminimalizować, gdy g(X)=E(Y|X) .

Moje zagadki dotyczące dowodu są następujące:

  1. Rozważać

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2] .

Wydaje mi się, że niezależnie od argumentów wskazujących, że pierwszy składnik jest zawsze równy zero, widać, że ustawienie g(X)=E(Y|X) minimalizuje wyrażenie, ponieważ implikuje (E(Y|X)g(X))=0 i stąd

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=E(0+0) = 0.

Ale jeśli to prawda, wówczas można powtórzyć dowód zastępując dowolną inną funkcją , powiedzmy , i dojdziemy do wniosku, że minimalizuje wyrażenie. Więc musi być coś, co źle zrozumiałem (prawda?).X h ( X ) h ( X )E(Y|X)Xh(X)h(X)

  1. Mam wątpliwości co do znaczenia w opisie problemu. Jak należy interpretować notację? Czy to znaczyE[(Yg(X))2]

E Y [ ( Y - g ( X ) ) 2 ] E X Y [ ( Y - g ( X ) ) 2 ]EX[(Yg(X))2] , czy ?EY[(Yg(X))2]EXY[(Yg(X))2]

Odpowiedzi:


11

(Jest to adaptacja Granger & Newbold (1986) „Forecasting Economic Time Series”).

Z funkcja kosztu błędu to . Obejmuje to krytyczne założenie (że funkcja kosztu błędu jest symetryczna wokół zera) - inna funkcja kosztu błędu niekoniecznie miałaby warunkową wartość oczekiwaną jako jego wartości oczekiwanej. Nie można zminimalizować funkcji kosztu błędu, ponieważ zawiera ona nieznane ilości. Dlatego zdecydujesz się zminimalizować jego oczekiwaną wartość. Wtedy twoja funkcja celu staje się argmin[Yg(X)]2argmin

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

który moim zdaniem odpowiada również na twoje drugie pytanie. Jest intuicyjny, że wartość oczekiwana będzie uwarunkowane , ponieważ staramy się oszacować prognozy / na podstawie . Rozłóż kwadrat, aby uzyskaćX Y XYXYX

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

Pierwszy termin nie zawiera więc nie wpływa na minimalizację i można go zignorować. Całka w drugim członie jest równa warunkowej oczekiwanej wartości dla , a całka w ostatnim członie jest równa jedności. WięcY Xg(X)YX

argming(x)E[Yg(X)]2=argming(x){2g(X)E(YX)+[g(X)]2}

Pierwsza pochodna wrt to co prowadzi do warunku pierwszego rzędu dla minimalizacji podczas gdy druga pochodna jest równa co wystarcza na minimum.- 2 E ( Y X ) + 2 g ( X ) g ( X ) = E ( Y X )g(X)2E(YX)+2g(X)g(X)=E(YX)2>0

DODATEK: Logika podejścia potwierdzającego „dodawanie i odejmowanie”.

OP jest zaskoczony podejściem podanym w pytaniu, ponieważ wydaje się tautologiczne. Nie jest tak, ponieważ podczas korzystania z taktyki dodawania i odejmowania określona część funkcji celu wynosi zero dla dowolnego wyboru terminu, który jest dodawany i odejmowany, NIE wyrównuje funkcji wartości , a mianowicie wartości celu funkcja oceniana na minimalizatorze kandydata.

Do wyboru mamy funkcję wartości Dla dowolnego wyboru mamy wartość funkcji .V ( E ( Y X ) ) = E [ ( Y - E ( Y X ) ) 2X ] g ( X ) = h ( X ) V ( h ( X ) ) = E [ ( Y - h (g(X)=E(YX)V(E(YX))=E[(YE(YX))2X]g(X)=h(X)V(h(X))=E[(Yh(X))2X]

Twierdzę to

E ( Y 2X ) - 2 E [ ( Y E ( Y X ) ) X ] + E [ ( E

V(E(YX))V(h(X))
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+mi[(h(X))2)X]

Pierwsza kadencja LHS i RHS anuluje się. Należy również pamiętać, że zewnętrzna oczekiwanie jest uzależnione od . Na podstawie właściwości warunkowych oczekiwań się kończyX

...-2)mi(YX)mi(YX)+[mi(YX)]2)-2)mi(YX)h(X)+[h(X)]2)

0[mi(YX)]2)-2)mi(YX)h(X)+[h(X)]2)

h ( x ) E ( Y X ) E ( Y X )

0[mi(YX)-h(x)]2)
który zachowuje ścisłą nierówność, jeśli . Tak więc jest globalnym i unikalnym minimalizatorem.h(x)mi(YX)mi(YX)

Ale to także mówi, że podejście polegające na dodawaniu i odejmowaniu nie jest tutaj najbardziej pouczającym dowodem.


Dziękuję za odpowiedź. Pomaga wyjaśnić moje drugie pytanie. Jak starałem się przekazać w tytule pytania, moje główne zagadnienie (pierwsze w poście) dotyczyło raczej mechanizmu dowodu. Moją główną troską jest zrozumienie dowodu przedstawionego w pytaniu. Jak wyjaśniłem, moje zrozumienie dowodu prowadzi mnie do rażąco problematycznego stwierdzenia. Chciałbym więc zrozumieć, że mój błąd jest taki, ponieważ może ujawnić głębsze nieporozumienia dotyczące koncepcji oczekiwania i warunkowego oczekiwania. Masz jakieś przemyślenia na ten temat?
Martin Van der Linden

1
Dodałem wyjaśnienie dotyczące podejścia „dodawaj i odejmuj” do dowodu.
Alecos Papadopoulos

Zajęło mi trochę czasu, aby to zrozumieć, ale w końcu dostałem swój podstawowy błąd: wystarczająco prawdziwy gdy , ale w żadnym wypadku nie oznacza to, że minimalizuje wyrażenie . Nie ma powodu, dla którego wyrażenie w nawiasach nie może być niższe niż zero. Ze względu na znak minus przed można znaleźć trochę przykład . g ( X ) = h ( X ) h ( X ) ( h ( X ) - g ( X ) ) g ( X ) E [ - 2 ( Y - h ( X ) ) ( h ( X ) -mi[-2)(Y-h(X))(h(X)-sol(X))+(h(X)-sol(X))2)]=0sol(X)=h(X)h(X)(Y-h(X))(h(X)-sol(X))sol(X)mi[-2)(Y-h(X))(h(X)-sol(X))+(h(X)-sol(X))2)]<0
Martin Van der Linden,

1
Hmmm ... znak minus w wyrażeniu, do którego się odwołujesz, jest błędem - powinien to być znak plus. Mógłbyś oczywiście zmienić układ warunków, aby uzyskać znak minus ... czy to szkodzi uzyskanej intuicji?
Alecos Papadopoulos

Dzięki za dotrzymanie pytania. Zredagowałem początkowy post, aby poprawić ten błąd. Na szczęście myślę, że nie zaszkodzi nabytej intuicji. Właściwie to pomaga mi zrozumieć kolejny błąd: zakładałem, że znak minus był ważny, aby zagwarantować, że niekoniecznie musi być minimum . Ale zdaję sobie sprawę, że nie chodzi tylko o znak przed 2. (Mam nadzieję) Naprawdę musiałem zrozumieć, że ogólnie (tj. Dla dowolnego ) nie musi być minimalizowana, gdy (prawda?). 0h ( X ) E [ 2 ( Y -mi[-2)(Y-h(X))(h(X)-sol(X))+(h(X)-sol(X))2)]h(X)g ( X ) = h ( X )mi[2)(Y-h(X))(h(X)-sol(X))]sol(X)=h(X)
Martin Van der Linden

5

Pamiętaj, że aby potwierdzić odpowiedź, naprawdę musisz to tylko pokazać

mi[-2)(Y-mi(Y|X))(mi(Y|X)-sol(X))]=0

Jeśli chodzi o to, jakie oczekiwania przyjąć, przyjmujesz je warunkowo, w przeciwnym razie termin

argminsol(X)mi[(Y-sol(X))2)]

Nie ma sensu, ponieważ jest zmienną losową, jeśli to a nie . Pokaż, że naprawdę powinieneś pisać lub aby to wyjaśnić. Biorąc pod uwagę to wyjaśnienie, termin jest stałą i można go wyciągnąć poza oczekiwania, a Ty masz:sol(X)E X Y E Y | X E [ ( Y - g (mimiXYmiY|X E Y | X [ ( Y - g ( X ) ) 2 ] ( E ( Y | Xmi[(Y-sol(X))2)|X]miY|X[(Y-sol(X))2)](mi(Y|X)-sol(X))

-2)(mi(Y|X)-sol(X))mi[(Y-mi(Y|X))|X]=-2)(mi(Y|X)-sol(X))[mi(Y|X)-mi[mi(Y|X)|X]]=-2)(mi(Y|X)-sol(X))[mi(Y|X)-mi(Y|X)]=0

Dlatego możesz napisać funkcję celu jako:

miY|X[(Y-sol(X))2)]=miY|X[(Y-miY|X(Y|X))2)]+(miY|X(Y|X)-sol(X))2)

Minimalizator jest stąd oczywisty. Zauważ, że jeśli miałbyś także średnią ponad , możesz użyć bardzo podobnego argumentu, aby pokazać:X

miX[(mi(Y|X)-sol(X))2)]=miX[(miY|X(Y|X)-miX[miY|X(Y|X)])2)]+(miX[miY|X(Y|X)]-miX[sol(X)])2)

To pokazuje, że jeśli ustawisz dla każdego , to masz również minimalizator nad tą funkcją. W pewnym sensie tak naprawdę nie ma znaczenia, czy to czy .X E E Ysol(X)=miY|X(Y|X)Xmi E Y | XmiYXmiY|X


3

Jest matematyczny punkt widzenia, który jest bardzo prosty. To, co masz, to problem z rzutowaniem w przestrzeni Hilberta, podobnie jak rzutowanie wektora w na podprzestrzeń.Rn

Niech oznacza podstawową przestrzeń prawdopodobieństwa. Aby problem miał sens, rozważ zmienne losowe o skończonych drugich momentach, to znaczy przestrzeń Hilberta . Problem jest teraz następujący: biorąc , znajdź rzut na podprzestrzeń , w którym jest -subalgebra o generowane przez . (Podobnie jak w przypadku skończonych wymiarów, minimalizacja odległości do podprzestrzeni oznacza znalezienie rzutu). Pożądana projekcja toL 2 ( Ω , F , μ ) X , Y L 2 ( Ω , F , μ ) Y L 2 ( Ω , F X , μ ) F X σ F(Ω,fa,μ)L.2)(Ω,fa,μ)X,YL.2)(Ω,fa,μ)YL.2)(Ω,faX,μ)faXσfaXL.2)mi(X|Y) według konstrukcji. (To faktycznie charakteryzuje , jeśli ktoś sprawdza dowód istnienia).mi(X|Y)


To piękna odpowiedź.
jII

0

Jeśli chodzi o twoje ostatnie pytanie, oczekiwaniem może być albo wrt (błąd bezwarunkowy), albo wrt (błąd warunkowy przy każdej wartości ). Na szczęście minimalizacja błędu warunkowego przy każdej wartości również minimalizuje błąd bezwarunkowy, więc nie jest to istotne rozróżnienie.p(x,y)p(yx)X=xX=x

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.