Czy istnieje elegancki / wnikliwy sposób zrozumienia tej tożsamości regresji liniowej dla wielu ?


10

W regresji liniowej doszedłem do cudownego wyniku, jeśli dopasujemy model

E[Y]=β1X1+β2X2+c,

to jeśli znormalizujemy i wyśrodkujemy dane , i ,YX1X2

R2=Cor(Y,X1)β1+Cor(Y,X2)β2.

Wydaje mi się, że jest to zmienna wersja dla regresji , co jest przyjemne.R2=Cor(Y,X)2y=mx+c

Ale jedyny dowód, jaki znam, nie jest w żaden sposób konstruktywny ani wnikliwy (patrz poniżej), a jednak patrząc na to wydaje się, że powinien być łatwo zrozumiały.

Przykładowe przemyślenia:

  • Parametry i dają nam „proporcję” i w , więc bierzemy odpowiednie proporcje ich korelacji ...β1β2X1X2Y
  • W y są częściowymi korelacje, jest kwadrat korelacji wielorakiej ... korelacje pomnożone przez częściowe korelacji ...βR2
  • Jeśli najpierw ortogonalizujemy, to s będzie ... czy ten wynik ma jakiś sens geometryczny?βCov/Var

Żaden z tych wątków wydaje mi się nigdzie nie prowadzić. Czy ktoś może podać jasne wyjaśnienie, w jaki sposób zrozumieć ten wynik.


Niezadowalający dowód

R2=SSregSSTot=SSregN=(β1X1+β2X2)2=β12X12+β22X22+2β1β2X1X2

i

Cor(Y,X1)β1+Cor(Y,X2)β2=YX1β1+YX2β2=β1X12+β2X1X2β1+β1X1X2+β2X22β2=β12X12+β22X22+2β1β2X1X2

CO BYŁO DO OKAZANIA.


Musisz używać standardowych zmiennych, bo w przeciwnym razie nie ma gwarancji , że twoja formuła dla będzie zawierać się między a . Chociaż założenie to pojawia się w twoim dowodzie, pomogłoby to wyrazić je od samego początku. Zastanawiam się również nad tym, co naprawdę robisz: twój jest wyraźnie funkcją samego modelu - nie ma nic wspólnego z danymi - ale zaczynasz mówić, że „dopasowałeś” model do czegoś . R201R2
whuber

Czy twój najlepszy wynik nie zachowuje się tylko wtedy, gdy X1 i X2 są idealnie nieskorelowane?
gung - Przywróć Monikę

@gung Nie sądzę - dowód u dołu wydaje się potwierdzać, że działa niezależnie. Ten wynik również mnie zaskakuje, dlatego chcę mieć „wyraźny dowód na zrozumienie”
Korone,

@ whuber Nie jestem pewien, co masz na myśli przez „funkcję samego modelu”? Mam na myśli dla prostego OLS z dwiema zmiennymi predykcyjnymi. To znaczy, że jest to 2 zmienna wersjaR2R2=Cor(Y,X)2
Korone

Nie wiem, czy twoje są parametrami czy szacunkami. βi
whuber

Odpowiedzi:


9

Matryca kapeluszowa jest idempotentna.

(Jest to liniowo-algebraiczny sposób stwierdzenia, że ​​OLS jest ortogonalnym rzutem wektora odpowiedzi na przestrzeń rozpiętą przez zmienne.)


Przypomnij sobie to z definicji

R2=ESSTSS

gdzie

ESS=(Y^)Y^

jest sumą kwadratów (wyśrodkowanych) przewidywanych wartości i

TSS=YY

jest sumą kwadratów (wyśrodkowanych) wartości odpowiedzi. Implikuje również uprzednia standaryzacja względem wariancji jednostekY

TSS=YY=n.

Przypomnijmy również, że szacunkowe współczynniki są podane przez

β^=(XX)XY,

skąd

Y^=Xβ^=X(XX)XY=HY

gdzie jest „matryca hat” dokonywania projekcji na swych najmniejszych kwadratów dopasowania . Jest symetryczny (co wynika z samej jego formy) i idempotentny . Oto dowód tego drugiego dla tych, którzy nie znają tego wyniku. To tylko tasowanie nawiasów wokół:HYY^

HH=HH=(X(XX)X)(X(XX)X)=X(XX)(XX)(XX)X=X(XX)X=H.

W związku z tym

R2=ESSTSS=1n(Y^)Y^=1nYHHY=1nYHY=(1nYX)β^.

Kluczowy ruch w środku wykorzystał idempotencję matrycy kapelusza. Z prawej strony jest magicznych wzór ponieważ jest (wiersz) wektorem współczynników korelacji między i kolumny .1nYXYX


(+1) Bardzo fajny opis. Ale dlaczego ^{-}zamiast ^{-1}wszędzie?
ameba

1
@amoeba Jest to uogólniona odwrotność , umieszczona tam, aby poradzić sobie z przypadkami, w których może być pojedyncza. XX
whuber

4
@amoeba Penrose, w swoim oryginalnym artykule ( A Generalized Inverse for Matrices , 1954) użył notacji . Nie podoba mi się ani to, ani notacja ponieważ zbyt łatwo można je pomylić z koniugatami, transponuje lub transponuje koniugat, podczas gdy notacja jest tak sugestywna dla odwrotności, że przypadkowy czytelnik może uciec od myślenia to jak jeśli im się podoba. Jesteś zbyt dobrym czytelnikiem - ale dziękuję za uwagę. AA+AA1
whuber

1
Ciekawa i przekonująca motywacja, ale czy mogę zapytać, czy notacja ta jest czasem używana gdzie indziej, czy jest to twój własny wynalazek?
ameba

5
@amoeba: Tak, notacja ta pojawia się gdzie indziej, w tym w klasycznych tekstach Graybilla na temat modelu liniowego.
kardynał

5

Następujące trzy formuły są dobrze znane, można je znaleźć w wielu książkach o regresji liniowej. Nie jest trudno je uzyskać.

β1=rYX1rYX2rX1X21rX1X22

β2=rYX2rYX1rX1X21rX1X22

R2=rYX12+rYX222rYX1rYX2rX1X21rX1X22

Jeśli podstawisz dwie bety do równania , otrzymasz powyższy wzór na R-kwadrat.R2=rYX1β1+rYX2β2


Oto geometryczny „wgląd”. Poniżej znajdują się dwa zdjęcia pokazujące regresję przez i . Ten rodzaj reprezentacji jest znany jako zmienne jako wektory w przestrzeni tematycznej ( przeczytaj, o co chodzi). Obrazy są rysowane po wyśrodkowaniu wszystkich trzech zmiennych, a więc (1) długość każdego wektora = st. odchylenie odpowiedniej zmiennej i (2) kąt (jej cosinus) między każdymi dwoma wektorami = korelacja między odpowiednimi zmiennymi.YX1X2

wprowadź opis zdjęcia tutaj

Y^ to prognoza regresji (rzut ortogonalny na „płaszczyznę X”); jest terminem błędu; , wielokrotny współczynnik korelacji.YecosYY^=|Y^|/|Y|

Lewy obraz przedstawia pochylać współrzędne z na zmiennych i . Wiemy, że takie współrzędne odnoszą się do współczynników regresji. Mianowicie współrzędne to: i .Y^X1X2b1|X1|=b1σX1b2|X2|=b2σX2

A prawe zdjęcie pokazuje odpowiednie współrzędne prostopadłe . Wiemy, że takie współrzędne odnoszą się do współczynników korelacji zerowego rzędu (są to cosinusy rzutów ortogonalnych). Jeśli jest korelacją między i a jest korelacją między i wówczas współrzędna to . Podobnie dla drugiej współrzędnej, .r1YX1r1Y^X1r1|Y|=r1σY=r1|Y^|=r1σY^r2|Y|=r2σY=r2|Y^|=r2σY^

Do tej pory były to ogólne wyjaśnienia reprezentacji wektora regresji liniowej. Teraz zwracamy się do zadania, aby pokazać, w jaki sposób może on prowadzić do .R2=r1β1+r2β2

Przede wszystkim przypomnij sobie, że w swoim pytaniu @Corone przedstawił warunek, że wyrażenie jest prawdziwe, gdy wszystkie trzy zmienne są znormalizowane , to znaczy nie tylko wyśrodkowane, ale także skalowane do wariancji 1. Następnie (tj. Sugerując aby być „częściami roboczymi” wektorów) mamy współrzędne równe: ; ; ; ; a także. Przerysuj, w tych warunkach, tylko „płaszczyzna X” powyższych zdjęć:|X1|=|X2|=|Y|=1b1|X1|=β1b2|X2|=β2r1|Y|=r1r2|Y|=r2R=|Y^|/|Y|=|Y^|

wprowadź opis zdjęcia tutaj

Na zdjęciu mamy parę prostopadłych współrzędnych oraz parę skośnych współrzędnych, z tego samego wektora o długości . Istnieje ogólna zasada uzyskiwania współrzędnych prostopadłych z ukośnych (lub z tyłu): , gdzie jest macierzą prostopadłych; jest matrycą skośną tej samej wielkości; i są symetryczną macierzą kątów (cosinusów) między nieortogonalnymi osiami.Y^RP=SCPpoints X axesSCaxes X axes

X1 i są w naszym przypadku osiami, przy czym jest cosinusem między nimi. Zatem i .X2r12r1=β1+β2r12r2=β1r12+β2

Zastąpić te wyrażony poprzez sw @ corone oświadczeniu , a dostaniesz to , - to prawda , ponieważ dokładnie tak jest wyrażona przekątna równoległoboku (podbarwiona na zdjęciu) poprzez sąsiednie boki (ilość jest iloczynem skalarnym).rβR2=r1β1+r2β2R2=β12+β22+2β1β2r12 β1β2r12

To samo dotyczy dowolnej liczby predyktorów X. Niestety, niemożliwe jest narysowanie podobnych obrazów za pomocą wielu predyktorów.


1
+1 miło widzieć, że zbudowano go również w ten sposób, ale to nie dodaje tyle wglądu w porównaniu z odpowiedzią
Whubera

2
@Corone, dodałem „wgląd”, który możesz wziąć.
ttnphns

1
+1 Naprawdę fajne (po aktualizacji). Myślałem, że powoływanie się na „ogólną zasadę” konwersji między współrzędnymi to trochę przesada (i dla mnie było to tylko mylące); aby zobaczyć, że np. wystarczy zapamiętać definicję cosinusa i spojrzeć na jeden z właściwych trójkątów. r1=β1+β2r12
ameba

Naprawdę fajna edycja, zmiana zaakceptowana.
Korone
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.