Jaka intuicja kryje się za warunkowymi rozkładami Gaussa?


46

Załóżmy, że XN2(μ,Σ) . Następnie rozkład warunkowy X1 biorąc pod uwagę, że X2=x2 jest rozkładem wielowymiarowym normalnie rozkładanym ze średnią:

E[P(X1|X2=x2)]=μ1+σ12σ22(x2μ2)

i wariancja:

Var[P(X1|X2=x2)]=σ11σ122σ22

Ma to sens, że wariancja zmniejszy się, ponieważ mamy więcej informacji. Ale jaka intuicja kryje się za tą średnią formułą? W jaki sposób kowariancja między X1 a X2 wpływa na średnią warunkową?


2
Czy twoje pytanie jest po prostu „dlaczego średnia z rozkładu warunkowego = μ1 ”?
gung - Przywróć Monikę

@ gung: To prawda, jeśli x2=μ2 . Ale dlaczego w wchodzą σ 11σ11 i σ22 ?
eroeijr

3
W jednostkach naturalnych („znormalizowanych”) piszemy Xi=μ1+σiZi gdzie σi=σii . W tych terminach rozkład warunkowy jest normalny zE(Z1|Z2)=ρZ2iρ=σ12/(σ1σ2).Fakt, że|ρ|1nazywa się „średnią rewersją” lub„regresją do średniej”: istnieje obszerna literatura techniczna i popularna na ten temat sięgająca 130 lat wstecz.
whuber

2
Powiedz, eroeijr, czy ten post jest twój? (Oprócz „gościa” na początku istnieje wyraźne podobieństwo w nazwach.) Jeśli to twoje, powinieneś poprosić o połączenie dwóch kont i wziąć dużą premię w punktach, które posiadasz.
Glen_b

2
Zgodnie z sugestią @Glen_b, jeśli masz wiele (niezarejestrowanych) kont, wypełnij formularz na stronie stats.stackexchange.com/contact i poproś o ich połączenie.
chl

Odpowiedzi:


57

Streszczenie

Każde stwierdzenie w pytaniu może być rozumiane jako właściwość elips. Tylko nieruchomość szczególności z dwuwymiarowym rozkładzie normalnym, co jest potrzebne, jest fakt, że w standardowym dwuwymiarowym rozkładzie normalnym z --for którym X i Y są nieskorelowane - warunkowa wariancja Y nie zależy od X . (To z kolei jest bezpośrednią konsekwencją faktu, że brak korelacji implikuje niezależność dla zmiennych normalnych łącznie).X,YXYYX

Poniższa analiza pokazuje dokładnie, jaka właściwość elips jest zaangażowana, i wyprowadza wszystkie równania pytania za pomocą elementarnych pomysłów i najprostszej możliwej arytmetyki, w sposób, który można łatwo zapamiętać.


Rozkłady symetryczne kołowo

Rozkład pytania jest członkiem rodziny dwuwymiarowych rozkładów normalnych. Wszystkie pochodzą od podstawowego elementu, standardowej dwuwymiarowej normalnej, która opisuje dwa nieskorelowane standardowe rozkłady normalne (tworzące dwie współrzędne).

Ryc. 1: standardowy dwuwymiarowy rozkład normalny

Lewa strona to wykres reliefowy standardowej dwuwymiarowej normalnej gęstości. Prawa strona pokazuje to samo w pseudo-3D, z wyciętą przednią częścią.

Jest to przykład kołowo-symetrycznego rozkładu: gęstość zmienia się wraz z odległością od centralnego punktu, ale nie z kierunkiem oddalonym od tego punktu. Zatem kontury jego wykresu (po prawej) są okręgami.

Większość innych dwuwymiarowych rozkładów normalnych nie jest jednak kołowo symetrycznych: ich przekroje są elipsami. Te elipsy modelują charakterystyczny kształt wielu dwuwymiarowych chmur punktów.

Rycina 2: inny dwuwymiarowy rozkład normalny, wykreślony

Są to portrety dwuwymiarowego rozkładu normalnego z macierzą kowariancji Jest to model danych z współczynnikiem korelacji-2/3.Σ=(123231).2/3


Jak tworzyć elipsy

Elipsa - zgodnie z jej najstarszą definicją - jest sekcją stożkową, która jest okręgiem zniekształconym przez rzut na inną płaszczyznę. Biorąc pod uwagę naturę projekcji, tak jak robią to artyści wizualni, możemy ją rozłożyć na sekwencję zniekształceń, które są łatwe do zrozumienia i obliczenia.

Najpierw rozciągnij (lub, jeśli to konieczne, ściśnij) okrąg wzdłuż tego, co stanie się długą osią elipsy, aż uzyska odpowiednią długość:

Krok 1: rozciągnij

Następnie ściśnij (lub rozciągnij) tę elipsę wzdłuż jej mniejszej osi:

Krok 2: ściśnij

Po trzecie, obróć go wokół środka do ostatecznego ustawienia:

Krok 3: obróć

Na koniec przenieś go w wybrane miejsce:

Krok 4: zmiana

To wszystko są afiniczne transformacje. (W rzeczywistości pierwsze trzy są transformacjami liniowymi ; ostatnie przesunięcie sprawia, że ​​afinuje.) Ponieważ skład transformacji afinicznych jest (z definicji) wciąż afiniczny, zniekształcenie netto od koła do końcowej elipsy jest transformacją afiniczną. Ale może to być nieco skomplikowane:

Przekształcenie kompozytowe

Zwróć uwagę na to, co stało się z (naturalnymi) osiami elipsy: po utworzeniu przez przesunięcie i ściśnięcie, (oczywiście) obróciły się i przesunęły wraz z samą osią. Z łatwością widzimy te osie, nawet jeśli nie są narysowane, ponieważ są one osiami symetrii samej elipsy.

Chcielibyśmy zastosować nasze rozumienie elips do zrozumienia zniekształconych kołowo symetrycznych rozkładów, takich jak dwuwymiarowa rodzina Normal. Niestety, nie ma problemu z tymi zakłóceniami : oni nie szanują rozróżnienie między i y osi. Rotacja w kroku 3 rujnuje to. Spójrz na słabym współrzędnych siatek w środowisk: te pokazują, co dzieje się z siatki (siatki 1 / 2xy1/2w obu kierunkach), gdy jest zniekształcony. Na pierwszym zdjęciu odstęp między oryginalnymi pionowymi liniami (pokazanymi jako ciągłe) jest podwojony. Na drugim zdjęciu odstęp między oryginalnymi poziomymi liniami (pokazanymi przerywanymi) zmniejsza się o jedną trzecią. Na trzecim zdjęciu odstępy między siatkami nie są zmieniane, ale wszystkie linie są obracane. Przesuwają się w górę i w prawo na czwartym zdjęciu. Ostateczny obraz, pokazujący wynik netto, pokazuje tę rozciągniętą, ściśniętą, obróconą, przesuniętą siatkę. Oryginalne linie ciągłe o stałej współrzędnej nie są już pionowe.x

Kluczową ideą - można zaryzykować stwierdzenie, że jest to sedno regresji - jest sposób, w jaki okrąg można zniekształcić w elipsę bez obracania linii pionowych . Ponieważ przyczyną była rotacja, przejdźmy do sedna sprawy i pokażmy, jak stworzyć obróconą elipsę, bez faktycznego obracania czegokolwiek !

Skośna elipsa

To jest transformacja skośna. W rzeczywistości robi dwie rzeczy naraz:

  • Ściska w kierunku ( powiedzmy o wartość λ ). To pozostawia oś X w spokoju.yλx

  • Podnosi każdy wynikowy punkt o kwotę wprost proporcjonalną do x . Zapisując tę ​​stałą proporcjonalności jako ρ , wysyła ( x , y ) do ( x , y + ρ x ) .(x,y)xρ(x,y)(x,y+ρx)

Drugi krok podnosi oś do linii y = ρ x , jak pokazano na poprzednim rysunku. Jak pokazano na tym rysunku, chcę pracować ze specjalną transformacją pochylenia, która skutecznie obraca elipsę o 45 stopni i wpisuje ją w kwadrat jednostki. Główną osią tej elipsy jest linia y = x . Jest wizualnie oczywiste, że | ρ | 1 . (Ujemne wartości ρ przechylają elipsę w prawo, a nie w prawo.) To geometryczne wyjaśnienie „regresji do średniej”.xy=ρxy=x|ρ|1ρ

Wybranie kąta 45 stopni powoduje, że elipsa jest symetryczna wokół przekątnej kwadratu (część linii ). Aby obliczyć parametry tej transformacji skośnej, obserwuj:y=x

  • Podnoszenie o przesuwa punkt ( 1 , 0 ) do ( 1 , ρ ) .ρx(1,0)(1,ρ)

  • Symetria wokół głównej przekątnej oznacza, że ​​punkt również leży na elipsie.(ρ,1)

Gdzie zaczął się ten punkt?

  • Pierwotny (górny) punkt na okręgu jednostkowym (mający równanie niejawne ) o współrzędnej x ρ wynosił ( ρ , x2+y2=1xρ.(ρ,1ρ2)

  • Dowolny punkt formy najpierw został ściśnięty do ( ρ , λ y ), a następnie podniesiony do ( ρ , λ y + ρ × ρ ) .(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)

Unikalne rozwiązanie równania toλ=(ρ,λ1ρ2+ρ2)=(ρ,1) . Jest to wielkość, o którą wszystkie odległości w kierunku pionowym muszą zostać ściśnięte, aby utworzyć elipsę pod kątem 45 stopni, gdy jest ona przekrzywiona w pionie oρ.λ=1ρ2ρ

ρ0, 3/10, 6/10,9/10,

Żywy obraz

ρ


Podanie

Jesteśmy gotowi na regresję. Standardową, elegancką (ale prostą) metodą regresji jest najpierw wyrażenie oryginalnych zmiennych w nowych jednostkach miary: skupiamy je na ich średnich wartościach i używamy ich standardowych odchyleń jako jednostek. To przesuwa środek rozkładu do początku i powoduje, że wszystkie jego eliptyczne kontury są nachylone o 45 stopni (w górę lub w dół).

x0x0y1ρ2ρxρxx

  • y0

  • ρxxρxy=ρx

xy=ρx

x

Możemy łatwo powiedzieć więcej:

  • (X,Y)Y|X(1ρ2)2=1ρ2

  • 1ρ2ρx

1x1ρ2

ρΣXYXYXY(X,Y)

ε=YρX

ε0Y0ρXρX

Wykres 3D przedstawiający rozkłady warunkowe i linię najmniejszych kwadratów

xρ=1/2

w konsekwencji

E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.

X1XεX(ε)ε0

ρXY


Wnioski

x(X,Y)xyμxμyσxσy

  • (μx,μy)

  • {(x,ρx)},

  • ρσyρ/σx

W związku z tym równanie linii regresji jest

y=σyρσx(xμx)+μy.
  • Y|Xσy2(1ρ2)Y|X(X,Y)X=(XμX)/σxY=(YμY)/σY

Y|X1

  • Σσ11=σx2, σ12=σ21=ρσxσy,σ22=σy2,Y|X

σy2(1ρ2)=σ22(1(σ12σ11σ22)2)=σ22σ122σ11.

Uwagi techniczne

y

(1ρρ1)=AA

gdzie

A=(10ρ1ρ2).

O wiele lepiej znanym pierwiastkiem kwadratowym jest ten opisany początkowo (obejmujący obrót zamiast transformacji skośnej); jest to ten powstały w wyniku rozkładu pojedynczej wartości i odgrywa znaczącą rolę w analizie głównych składników (PCA):

(1ρρ1)=BB;

B=Q(ρ+1001ρ)Q

Q=(12121212)45

Zatem różnica między PCA a regresją sprowadza się do różnicy między dwoma specjalnymi pierwiastkami kwadratowymi macierzy korelacji.


1
Piękne zdjęcia i świetne opisy. W aktualizacji było kilka zdań, które pozostały niekompletne (jakbyś wiedział w zasadzie, co zamierzasz powiedzieć, ale nie zdecydowałeś się na ostateczne sformułowanie).
kardynał

1
@Cardinal Thanks. Przeczytam to ponownie i szukam takich rzeczy, a także nieuniknionych literówek. Jesteś zbyt uprzejmy, aby zwracać uwagę na inne rzeczy, które z pewnością zauważyłeś, takie jak luki w prezentacji. Największe jest to, że tak naprawdę nie pokazałem, że elipsy są pod kątem 45 stopni (równoważnie, wpisane w kwadrat jednostkowy); Po prostu to założyłem. Nadal szukam prostej demonstracji. Drugim jest to, że można się martwić, że transformacja skosu może spowodować inny rozkład niż pierwotne rozciąganie-ściskanie-obracanie-przesunięcie - ale łatwo jest to pokazać.
whuber

3
To naprawdę interesujące. Dziękujemy za poświęcenie czasu na napisanie tego.
Bill

W pierwszym akapicie wniosków napisano, że: „wyśrodkowujemy je na ich środkach i używamy ich standardowych odchyleń jako jednostek. To przesuwa środek rozkładu do początku i powoduje, że wszystkie jego eliptyczne kontury są nachylone o 45 stopni”, ale ja nie „ Czy rozumiesz, w jaki sposób centrowanie zmiennych w ich środkach przesuwa ich centra do źródła i wyrównuje je do 45 stopni?
Kaushal28

f(X,Y)=e12(x2+y2)f(X,Y)f(X)f(Y)

21

YX=xiXX1X20X2x1gdzie „przecinamy” rozkład wielu zmiennych. Rozważ poniższy rysunek:

wprowadź opis zdjęcia tutaj

X1X2X2X1μX2|X1=25μX2|X1=45.

σ22ΣX2σ2σ

y^i

β^1=Cov(x,y)Var(x)
σ12/σ22μX2|X1=xiμX2μX2 x2iX1X2

Co się stanie, jeśli uzależnisz więcej zmiennych? Chciałbyś po prostu dodać i odjąć dodatkowe warunki od średniej i wariancji?

2
YXy^i=Xiβ^β^=(XTX)1XTY

Czego użyłeś do stworzenia wykresu? Matematyka?
mpiktas

@mpiktas, mój wykres lub whuber? Wierzę, że jego są Mathematica, ale zrobiłem ten powyżej w / R. (chociaż brzydki kod ...)
gung - Przywróć Monikę

1
@mpiktas, nie wyobrażam sobie, aby mój kod mógł być kiedykolwiek opisany jako „niesamowity” ... Normalne krzywe są rysowane w / dnorm(y). Po prostu dodaję wynik do 25& 45i używam jako x.
gung - Przywróć Monikę

3

X1X2σ1,2>0X2X2X1X1

X2=x2>μ2X2X1σ1,2>0X1X2X2X1

E{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
X2E{X1|X2=x2}>μ1

X1X2

BLP{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
BLP

x2μ2σ12/σ22

1
x2>μ2E(X1|X2=x2)<μ1σ1,2>0

1
„Intuicyjny” nie oznacza „nieilościowy”: oba mogą się ze sobą łączyć. Często trudno jest znaleźć intuicyjny argument, który daje wyniki ilościowe, ale często można to zrobić, a proces znalezienia takiego argumentu jest zawsze pouczający.
whuber

Odnośnie ostatniego akapitu: Dowiedziałem się, że rozkład normalny nie jest tak szczególny: rodziny utworzone przez przekształcenia afiniczne rozkładów symetrycznych kołowych są wyjątkowe (których jest bardzo wiele).
whuber

@whuber To całkiem interesujące. Czy masz link lub cytujesz?
Bill
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.