Interpretacja geometryczna zwykłej regresji najmniejszych kwadratów daje wymaganą zrozumienia.
Większość tego, co musimy wiedzieć, można zobaczyć w przypadku dwóch regresorów i z odpowiedzią . W standaryzowane współczynniki, lub „beta”, pojawiają się, gdy wszystkie trzy wektory są standaryzowane do wspólnej długości (które możemy podjąć, aby być jedność). Zatem i są wektorami jednostkowymi w płaszczyźnie znajdują się na okręgu jednostkowym - a jest wektorem jednostkowym w trójwymiarowej przestrzeni euklidesowej zawierającej tę płaszczyznę. Dopasowana wartość jest rzutem prostopadłym (prostopadłym) na . Ponieważx1x2)yx1x2)mi2)ymi3)y^ymi2)R2)po prostu jest kwadratową długością , nie musimy nawet wizualizować wszystkich trzech wymiarów: wszystkie potrzebne informacje można narysować w tej płaszczyźnie.y^
Regresory ortogonalne
Najładniejsza sytuacja jest wtedy, gdy regresory są ortogonalne, jak na pierwszej figurze.
Na tej i pozostałych figurach będę konsekwentnie rysował dysk jednostki na biało, a regresory jako czarne strzałki. zawsze będzie wskazywać bezpośrednio w prawo. Grube czerwone strzałki przedstawiają elementy w kierunkach i : to znaczy i . Długość to promień szarego koła, na którym leży - pamiętaj jednak, że jestx1y^x1x2)β1x1β2)x2)y^R2) kwadratem tej długości.
Pitagorasa twierdzi
R2)= |y^|2)= |β1x1|2)+ |β2)x2)|2)=β2)1( 1 ) +β2)2)( 1 ) =β2)1+β2)2).
Ponieważ twierdzenie Pitagorasa ma dowolną liczbę wymiarów, rozumowanie to uogólnia się na dowolną liczbę regresorów, dając pierwszy wynik:
Gdy regresory są ortogonalne, równa się sumie kwadratów bet.R2)
Bezpośrednim następstwem jest to, że gdy występuje tylko jeden regresor - regresja jednoczynnikowa - jest kwadratem znormalizowanego nachylenia.R2)
Współzależny
Regresory ujemnie skorelowane spotykają się pod kątami większymi niż kąt prosty.
Na tym obrazie widać wizualnie, że suma kwadratów bety jest ściśle większa niż . Można to udowodnić algebraicznie, stosując Prawo Cosinusów lub pracując z macierzowym rozwiązaniem równań normalnych.R2)
Ustawiając dwa regresory prawie równolegle, możemy ustawić pobliżu początku (dla blisko ), podczas gdy nadal będzie on miał duże komponenty w kierunku i . Zatem nie ma ograniczeń co do tego, jak małe mogą być .y^R2)0x1x2)R2)
Wspomnijmy ten oczywisty wynik, naszą drugą ogólność:
Gdy regresory są skorelowane, może być dowolnie mniejsze niż suma kwadratów bet.R2)
Nie jest to jednak relacja uniwersalna, jak pokazuje następny rysunek.
Teraz ściśle przekracza sumę kwadratów bet. Poprzez sporządzenie dwóch regresorów blisko siebie i utrzymywanie pomiędzy nimi, możemy dokonać wartości beta zarówno podejścia , nawet wtedy, gdy znajduje się w pobliżu . Dalsza analiza może wymagać pewnej algebry: poniżej zajmę się tym.R2)y^1 / 2R2)1
Pozostawiam twojej wyobraźni skonstruowanie podobnych przykładów z dodatnio skorelowanymi regresorami, które w ten sposób spotykają się pod ostrymi kątami.
Zauważ, że te wnioski są niepełne: istnieją ograniczenia dotyczące tego, o ile mniej można porównać do sumy kwadratów bet. W szczególności, uważnie analizując możliwości, możesz dojść do wniosku (w przypadku regresji z dwoma regresorami), żeR2)
Gdy regresory są dodatnio skorelowane, a beta mają wspólny znak, lub gdy regresory są ujemnie skorelowane, a bety mają różne znaki, musi być co najmniej tak duże, jak suma kwadratów bety. R2)
Wyniki algebraiczne
Ogólnie rzecz biorąc, niech regresorami będą (wektory kolumnowe) a odpowiedź będzie . Środki normalizacyjne (a) każdy jest prostopadły do wektora i (b) mają długości jednostkowe:x1,x2), ... ,xpy( 1 , 1 , … , 1)′
|xja|2)= | y|2)= 1
Zmontowania wektory kolumnowe do w macierzy . Implikują to zasady mnożenia macierzyxjan × pX
Σ =X′X
jest macierzą korelacji . Betę podaje równanie normalne,xja
β= (X′X)- 1X′y=Σ- 1(X′y) .
Co więcej, z definicji dopasowanie jest
y^= Xβ= X(Σ- 1X′y) .
Jego kwadratowa długość daje z definicji :R2)
R2)= |y^|2)=y^′y^= ( Xβ)′( Xβ) =β′(X′X) β=β′Σ β.
Analiza geometryczna sugeruje, że szukamy nierówności dotyczących i sumy kwadratów bet,R2)
∑i = 1pβ2)ja=β′β.
normą każdej macierzy jest sumą podniesionych do kwadratu jego współczynników (zasadniczo obróbkę matrycy w postaci wektora elementów w przestrzeni euklidesowej)L.2)ZAp2)
| ZA|2)2)=∑ja , jza2)I j=tr(ZA′A ) = tr( AZA′) .
Implikuje to nierówność Cauchy'ego-Schwarza
R2)= tr(R2)) = tr(β′Σ β) = tr( Σ ββ′) ≤ | Σ|2)| ββ′|2)= | Σ|2)β′β.
Ponieważ współczynniki korelacji do kwadratu nie mogą przekraczać a jest ich tylko w macierzy matrix , nie może przekraczać . W związku z tym1p2)p × pΣ| Σ|2)1 ×p2)-----√= p
R2)≤ pβ′β.
Nierówność jest osiągana, na przykład, gdy wszystkie są doskonale pozytywnie skorelowane.xja
Istnieje górna granica tego, jak duże mogą być . Jego średnia wartość na regresor, , nie może przekraczać sumy kwadratów znormalizowanych współczynników.R2)R2)/ p
Wnioski
Co możemy ogólnie wnioskować? Oczywiście informacje o strukturze korelacji regresorów, a także znaki bety, mogą być wykorzystane albo do ograniczenia możliwych wartości albo nawet do ich dokładnego obliczenia. Bez tej pełnej informacji niewiele można powiedzieć poza oczywistym faktem, że gdy regresory są liniowo niezależne, pojedyncza niezerowa beta oznacza, że jest niezerowe, co oznacza, że jest niezerowa.R2)y^R2)
Jedną rzeczą, którą możemy zdecydowanie wywnioskować z danych wyjściowych w pytaniu, jest to, że dane są skorelowane: ponieważ suma kwadratów , równa , przekracza maksymalną możliwą wartość (a mianowicie ), muszą być pewne korelacja.1.1301R2)1
Inną rzeczą jest to, że ponieważ największa beta (pod względem wielkości) ma wartość , której kwadrat wynosi znacznie przekraczając podaną wartość wynoszącą możemy stwierdzić, że niektóre regresory muszą być skorelowane ujemnie. (W rzeczywistości jest prawdopodobnie silnie ujemnie skorelowane z wiekiem, wagą i tłuszczem w każdej próbce, która obejmuje szeroki zakres wartości tego ostatniego.)- 0,830,69R2)0,20GŁOS2)max
Gdyby były tylko dwa regresory, moglibyśmy wywnioskować znacznie więcej o ze znajomości wysokich korelacji regresora i kontroli bet, ponieważ to pozwoliłoby nam narysować dokładny szkic tego, jak , i musi być położony. Niestety dodatkowe regresory w tym sześciozmiennym problemie znacznie komplikują sytuację. Analizując dowolne dwie zmienne, musimy „wyjąć” lub „kontrolować” pozostałe cztery regresory („zmienne towarzyszące”). W ten sposób skracamy wszystkie , iR2)x1x2)y^x1x2)yw nieznanych ilościach (w zależności od tego, jak wszystkie trzy są powiązane ze zmiennymi towarzyszącymi), pozostawiając nam prawie nic nie wiedząc o rzeczywistych rozmiarach wektorów, z którymi pracujemy.