Czy do oszacowania można zastosować znormalizowane współczynniki w regresji liniowej ?


9

Próbuję zinterpretować wyniki artykułu, w którym zastosowali regresję wielokrotną, aby przewidzieć różne wyniki. Jednak (standardowe współczynniki B zdefiniowane jako gdzie jest zależne zmienna, a jest predyktorem) zgłoszone wydają się nie pasować do zgłoszonego :ββx1=Bx1SDx1SDyyx1R2

wprowadź opis zdjęcia tutaj

Pomimo wynoszących -0,83, -0,29, -0,16, -0,43, 0,25 i -0,29, zgłaszane wynosi tylko 0,20.βR2

Ponadto trzy predyktory: waga, BMI i% tłuszczu są wieloliniowe, skorelowane wokół r = 0,8-0,9 ze sobą w obrębie płci.

Czy wartość jest prawdopodobna dla tych , czy też nie ma prostej zależności między i ?R2ββR2

Dodatkowo, czy problemy z wielokoliniowymi predyktorami mogą wpływać na czwartego predyktora (VO2max), który jest skorelowany wokół r = 0,4 z wyżej wymienionymi trzema zmiennymi?β


Co to jest w tym kontekście? Współczynnik beta (regresja standaryzowana)? Albo coś innego? Jeśli tak, to tak naprawdę nie można nic powiedzieć, a jedyną interpretacją jest odchylenie standardowe. Fakt, że współczynnik oznacza duży wpływ, nie oznacza wysoki wartościβR2
Repmat

1
ß oznacza znormalizowane współczynniki b. Dla 1 przypadku predykcyjnego ß jest równe r Pearsona, który jest bezpośrednio związany z kwadratem R, jednak w tym przypadku wielowymiarowym dlaczego wysokie ß nie implikują wysokiego kwadratu R?
Sakari Jukarainen

2
Nie, w jednym przypadku regresora nie jest równe korelacji Pearsona: . Zależność między i nie jest tak prosta. ββ=Cov(y,x)Var(x)Cov(y,x)Var(y)×Var(x)=ρ(y,x)βR2
Richard Hardy

5
@RichardHardy Podejrzewam, że zamieszanie polega na tym, że Sakari zdefiniowała jako standaryzowany współczynnik regresji. W dwuwymiarowym regresji liniowej współczynnik regresji ( w notacji sakari'S) jest , gdzie jest korelacja i odchylenie standardowe. Aby ustandaryzować współczynnik regresji, dzielimy współczynnik ze standardowym odchyleniem i mnożymy przez to standardowe odchylenie , więc pozostaje tylko korelacja. Więc Sakari ma rację. βbrxysysxrsyx
Maarten Buis,

Nadal nie rozumiem, dlaczego uważasz, że to źle? Jeśli w dokumencie są statystyki podsumowujące, możesz po prostu sprawdzić, czy liczby się sumują. Podałeś nawet formułę, aby to zrobić. Nie można dojść do wniosku, po prostu dlatego, że efekty są duże w nieprzyzwoity sposób, że modele wykonują dobrą robotę, tłumacząc wariancję y.
Repmat

Odpowiedzi:


17

Interpretacja geometryczna zwykłej regresji najmniejszych kwadratów daje wymaganą zrozumienia.

Większość tego, co musimy wiedzieć, można zobaczyć w przypadku dwóch regresorów i z odpowiedzią . W standaryzowane współczynniki, lub „beta”, pojawiają się, gdy wszystkie trzy wektory są standaryzowane do wspólnej długości (które możemy podjąć, aby być jedność). Zatem i są wektorami jednostkowymi w płaszczyźnie znajdują się na okręgu jednostkowym - a jest wektorem jednostkowym w trójwymiarowej przestrzeni euklidesowej zawierającej tę płaszczyznę. Dopasowana wartość jest rzutem prostopadłym (prostopadłym) na . Ponieważx1x2yx1x2E2yE3y^yE2R2po prostu jest kwadratową długością , nie musimy nawet wizualizować wszystkich trzech wymiarów: wszystkie potrzebne informacje można narysować w tej płaszczyźnie.y^

Regresory ortogonalne

Najładniejsza sytuacja jest wtedy, gdy regresory są ortogonalne, jak na pierwszej figurze.

Rycina 1, pokazująca regresory i $ \ hat y $ jako wektory w płaszczyźnie.

Na tej i pozostałych figurach będę konsekwentnie rysował dysk jednostki na biało, a regresory jako czarne strzałki. zawsze będzie wskazywać bezpośrednio w prawo. Grube czerwone strzałki przedstawiają elementy w kierunkach i : to znaczy i . Długość to promień szarego koła, na którym leży - pamiętaj jednak, że jestx1y^x1x2β1x1β2x2y^R2 kwadratem tej długości.

Pitagorasa twierdzi

R2=|y^|2=|β1x1|2+|β2x2|2=β12(1)+β22(1)=β12+β22.

Ponieważ twierdzenie Pitagorasa ma dowolną liczbę wymiarów, rozumowanie to uogólnia się na dowolną liczbę regresorów, dając pierwszy wynik:

Gdy regresory są ortogonalne, równa się sumie kwadratów bet.R2

Bezpośrednim następstwem jest to, że gdy występuje tylko jeden regresor - regresja jednoczynnikowa - jest kwadratem znormalizowanego nachylenia.R2

Współzależny

Regresory ujemnie skorelowane spotykają się pod kątami większymi niż kąt prosty.

Ryc. 2, pokazujący ujemnie skorelowane regresory

Na tym obrazie widać wizualnie, że suma kwadratów bety jest ściśle większa niż . Można to udowodnić algebraicznie, stosując Prawo Cosinusów lub pracując z macierzowym rozwiązaniem równań normalnych.R2

Ustawiając dwa regresory prawie równolegle, możemy ustawić pobliżu początku (dla blisko ), podczas gdy nadal będzie on miał duże komponenty w kierunku i . Zatem nie ma ograniczeń co do tego, jak małe mogą być .y^R20x1x2R2

Postać

Wspomnijmy ten oczywisty wynik, naszą drugą ogólność:

Gdy regresory są skorelowane, może być dowolnie mniejsze niż suma kwadratów bet.R2

Nie jest to jednak relacja uniwersalna, jak pokazuje następny rysunek.

Rycina 3, pokazująca ujemnie skorelowane regresory, ale beta mają przeciwne znaki.

Teraz ściśle przekracza sumę kwadratów bet. Poprzez sporządzenie dwóch regresorów blisko siebie i utrzymywanie pomiędzy nimi, możemy dokonać wartości beta zarówno podejścia , nawet wtedy, gdy znajduje się w pobliżu . Dalsza analiza może wymagać pewnej algebry: poniżej zajmę się tym.R2y^1/2R21

Pozostawiam twojej wyobraźni skonstruowanie podobnych przykładów z dodatnio skorelowanymi regresorami, które w ten sposób spotykają się pod ostrymi kątami.

Zauważ, że te wnioski są niepełne: istnieją ograniczenia dotyczące tego, o ile mniej można porównać do sumy kwadratów bet. W szczególności, uważnie analizując możliwości, możesz dojść do wniosku (w przypadku regresji z dwoma regresorami), żeR2

Gdy regresory są dodatnio skorelowane, a beta mają wspólny znak, lub gdy regresory są ujemnie skorelowane, a bety mają różne znaki, musi być co najmniej tak duże, jak suma kwadratów bety. R2


Wyniki algebraiczne

Ogólnie rzecz biorąc, niech regresorami będą (wektory kolumnowe) a odpowiedź będzie . Środki normalizacyjne (a) każdy jest prostopadły do ​​wektora i (b) mają długości jednostkowe:x1,x2,,xpy(1,1,,1)

|xi|2=|y|2=1.

Zmontowania wektory kolumnowe do w macierzy . Implikują to zasady mnożenia macierzyxin×pX

Σ=XX

jest macierzą korelacji . Betę podaje równanie normalne,xi

β=(XX)1Xy=Σ1(Xy).

Co więcej, z definicji dopasowanie jest

y^=Xβ=X(Σ1Xy).

Jego kwadratowa długość daje z definicji :R2

R2=|y^|2=y^y^=(Xβ)(Xβ)=β(XX)β=βΣβ.

Analiza geometryczna sugeruje, że szukamy nierówności dotyczących i sumy kwadratów bet,R2

i=1pβi2=ββ.

normą każdej macierzy jest sumą podniesionych do kwadratu jego współczynników (zasadniczo obróbkę matrycy w postaci wektora elementów w przestrzeni euklidesowej)L2Ap2

|A|22=i,jaij2=tr(AA)=tr(AA).

Implikuje to nierówność Cauchy'ego-Schwarza

R2=tr(R2)=tr(βΣβ)=tr(Σββ)|Σ|2|ββ|2=|Σ|2ββ.

Ponieważ współczynniki korelacji do kwadratu nie mogą przekraczać a jest ich tylko w macierzy matrix , nie może przekraczać . W związku z tym1p2p×pΣ|Σ|21×p2=p

R2pββ.

Nierówność jest osiągana, na przykład, gdy wszystkie są doskonale pozytywnie skorelowane.xi

Istnieje górna granica tego, jak duże mogą być . Jego średnia wartość na regresor, , nie może przekraczać sumy kwadratów znormalizowanych współczynników.R2R2/p


Wnioski

Co możemy ogólnie wnioskować? Oczywiście informacje o strukturze korelacji regresorów, a także znaki bety, mogą być wykorzystane albo do ograniczenia możliwych wartości albo nawet do ich dokładnego obliczenia. Bez tej pełnej informacji niewiele można powiedzieć poza oczywistym faktem, że gdy regresory są liniowo niezależne, pojedyncza niezerowa beta oznacza, że jest niezerowe, co oznacza, że jest niezerowa.R2y^R2

Jedną rzeczą, którą możemy zdecydowanie wywnioskować z danych wyjściowych w pytaniu, jest to, że dane są skorelowane: ponieważ suma kwadratów , równa , przekracza maksymalną możliwą wartość (a mianowicie ), muszą być pewne korelacja.1.1301R2)1

Inną rzeczą jest to, że ponieważ największa beta (pod względem wielkości) ma wartość , której kwadrat wynosi znacznie przekraczając podaną wartość wynoszącą możemy stwierdzić, że niektóre regresory muszą być skorelowane ujemnie. (W rzeczywistości jest prawdopodobnie silnie ujemnie skorelowane z wiekiem, wagą i tłuszczem w każdej próbce, która obejmuje szeroki zakres wartości tego ostatniego.)-0,830,69R2)0,20GŁOS2)max

Gdyby były tylko dwa regresory, moglibyśmy wywnioskować znacznie więcej o ze znajomości wysokich korelacji regresora i kontroli bet, ponieważ to pozwoliłoby nam narysować dokładny szkic tego, jak , i musi być położony. Niestety dodatkowe regresory w tym sześciozmiennym problemie znacznie komplikują sytuację. Analizując dowolne dwie zmienne, musimy „wyjąć” lub „kontrolować” pozostałe cztery regresory („zmienne towarzyszące”). W ten sposób skracamy wszystkie , iR2)x1x2)y^x1x2)yw nieznanych ilościach (w zależności od tego, jak wszystkie trzy są powiązane ze zmiennymi towarzyszącymi), pozostawiając nam prawie nic nie wiedząc o rzeczywistych rozmiarach wektorów, z którymi pracujemy.


+1, ale nie rozumiem, dlaczego w przypadku nieortogonalnym wektor prostopadły do osi predyktora, a nie sprawia, że ​​rzutowane linie przerywane przebiegają równolegle do drugiego predyktora. Brzmi to nieporęcznie, ale myślę, że zrozumiecie, co mam na myśli. Twoje „Projekcje” (dwie mniejsze czerwone wektory) nie niektórzy je, aby uzyskać duży czerwony wektor. y^y^
ameba

@amoeba Masz całkowitą rację. Zbyt pochopnie tworzyłem te obrazy! Będę (mam nadzieję, że tymczasowo) usunąć ten post, dopóki nie będę miał okazji naprawić problemu. Dziękujemy za zwrócenie na to uwagi.
whuber

@Amoeba Poprawiłem zdjęcia i zmodyfikowałem analizę, aby je dopasować. Chociaż szczegóły uległy zasadniczej zmianie, wnioski pozostają takie same.
whuber

1
@amoeba Znowu masz rację. Z pewnym ryzykiem utraty zainteresowanych czytelników, ale teraz czuję się zmuszony do kwantyfikacji intuicji geometrycznej, zaostrzyłem ten wniosek i uzasadniłem go odrobiną algebry. (Ufam, że algebra jest poprawna!)
whuber

1
Wielkie dzięki! W skrócie, VO2max jest ujemnie skorelowane z wagą i BMI, ponieważ są one związane z wyższą beztłuszczową masą ciała. We wspomnianej tabeli VO2max faktycznie odpowiada VO2max podzielonemu przez wagę (co jest złym sposobem skalowania VO2max do wielkości ciała). VO2max / waga w tabeli jest ujemnie skorelowana ze wszystkimi innymi predyktorami, z wyjątkiem płci, co może wyjaśniać wysokie ß, ale niskie R-kwadrat, jak wspomniałeś.
Sakari Jukarainen,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.