Prosta interpretacja wyników regresji liniowej

20

Przeprowadziłem prostą regresję liniową logarytmu naturalnego 2 zmiennych, aby ustalić, czy są one skorelowane. Moje wyniki są następujące:

R^2 = 0.0893

slope = 0.851

p < 0.001

Jestem zdezorientowany. Patrząc na wartość , powiedziałbym, że dwie zmienne nie są skorelowane, ponieważ jest tak bliskie . Jednak nachylenie linii regresji wynosi prawie (mimo że wygląda na prawie poziomą na wykresie), a wartość p wskazuje, że regresja jest bardzo znacząca. $R^2$ $0$ $1$

Czy to oznacza, że te dwie zmienne są wysoce skorelowane? Jeśli tak, co oznacza wartość ? $R^2$

Powinienem dodać, że statystyka Durbina-Watsona została przetestowana w moim oprogramowaniu i nie odrzuciła hipotezy zerowej (wyniosła ). Myślałem, że to przetestowało niezależność między zmiennymi. W tym przypadku oczekiwałbym, że zmienne będą zależne, ponieważ są to pomiary pojedynczego ptaka. Wykonuję tę regresję jako część opublikowanej metody określania stanu ciała osoby, więc założyłem, że zastosowanie regresji w ten sposób ma sens. Jednak biorąc pod uwagę te wyniki, myślę, że być może dla tych ptaków ta metoda nie jest odpowiednia. Czy to wydaje się rozsądnym wnioskiem? $1.357$ $2$ $2$

regression r-squared

— Mog
źródło

1

Durbin-Watson statystyka jest test dla korelacji szeregowego: to, aby zobaczyć, czy sąsiadujące terminy błędach są wzajemnie skorelowane. Nie mówi nic o korelacji między twoim X a Y! Niepowodzenie testu wskazuje, że nachylenie i wartość p należy interpretować ostrożnie.

— whuber

Ach, okej To ma trochę więcej sensu niż to, czy te dwie zmienne są ze sobą skorelowane ... w końcu myślałem, że właśnie to próbowałem znaleźć za pomocą regresji. A to, że nieudany test wskazuje, że powinienem być ostrożny, interpretując nachylenie, a wartość p ma w tym przypadku jeszcze większy sens! Dzięki @whuber!

— Mog

1

Chciałbym tylko dodać, że nachylenie może być bardzo znaczące (wartość p <0,001), mimo że związek jest słaby, szczególnie przy dużej wielkości próby. W większości odpowiedzi wskazywano na to, że nachylenie (nawet jeśli jest znaczące) nie mówi nic o sile związku.

— Glen

Potrzebujesz aby określić siłę związku. Zobacz także stats.stackexchange.com/a/265924/99274 .

n

$n$

— Carl

22

Szacunkowa wartość nachylenia sama w sobie nie mówi o sile związku. Siła zależności zależy od wielkości wariancji błędu i zakresu predyktora. Również znacząca wartość niekoniecznie mówi ci, że istnieje silny związek; -wartość po prostu sprawdzić czy nachylenie jest dokładnie 0. wystarczająco dużą wielkość próbki, nawet niewielkie odchylenia od tej hipotezy (np ones nie praktycznego znaczenia) daje znaczący -wartość. $p$ $p$ $p$

Spośród trzech przedstawionych wielkości , współczynnik determinacji , daje największe wskazanie siły zależności. W twoim przypadku oznacza, że wariancji zmiennej odpowiedzi można wyjaśnić liniową zależnością z predyktorem. To, co stanowi „duży” zależy od dyscypliny. Na przykład w naukach społecznych może być „duży”, ale w kontrolowanych środowiskach, takich jak ustawienia fabryczne, może wymagać że istnieje „silny” związek. W większości sytuacji jest bardzo małym $R^2$ $R^{2} = .089$ $8.9\%$ $R^2$ $R^2 = .2$ $R^2 > .9$ $.089$ $R^2$ , więc Twój wniosek dotyczący słabej zależności liniowej jest prawdopodobnie uzasadniony.

— Makro
źródło

Dzięki Makro. Bardzo pomocna odpowiedź. Cieszę się, że zawarłeś część dotyczącą tego, co dokładnie testowana jest wartość p. Ma sens, że wartość p byłaby tak niska, biorąc pod uwagę, jak blisko 1 jest nachylenie. Wydaje mi się, w świetle twojej odpowiedzi i @jedfrancis ', wartość r ^ 2 opisuje tę „chmurę” punktów danych wokół linii regresji. Doskonały! Teraz jest to o wiele wyraźniejsze!

— Mog

@Macro (+1), dobra odpowiedź. Ale w jaki sposób „siła relacji” zależy od „wielkości przechwytywania”? AFAIK punkt przechwytujący nic nie mówi o korelacji lub „sile” relacji liniowej.

— whuber

@ whuber, masz rację - przechwytywanie jest nieistotne i zdecydowanie nie zmienia korelacji - myślałem o funkcji regresji

vs.

i myślałem w jakiś sposób o silniejszym związku (drugi) wszystkie pozostałe były równe), ponieważ większa wartość wielkości

była spowodowana przez

w tym drugim przypadku. Teraz nie ma sensu, kiedy o tym myślę. Zredagowałem post.

y = 10000 + x

$y = 10000 + x$

y = x

$y = x$

y

$y$

x

$x$

— Makro,

4

@macro Doskonała odpowiedź, ale chciałbym podkreślić (dla osób początkujących w tym temacie), że R ^ 2 może być bardzo niski, nawet przy silnym związku, jeśli związek jest nieliniowy, a zwłaszcza jeśli jest niemonotoniczny. Moim ulubionym przykładem jest związek między stresem a wynikiem egzaminu; bardzo niski stres i bardzo wysoki stres są zwykle gorsze niż stres umiarkowany.

— Peter Flom - Przywróć Monikę

1

@macro Tak, twoja odpowiedź była dobra, ale pracowałem z ludźmi, którzy nie znają wielu statystyk, i widziałem, co się dzieje ... czasami to, co mówimy, nie jest tym, co słyszą!

— Peter Flom - Przywróć Monikę

14

mówi, ile zmienności zmiennej zależnej jest wyjaśnione przez model. Można jednak interpretować , jak również na zależność między oryginalnymi wartości zmiennej zależnej i wartościami zamocowane. Dokładna interpretacja i wyprowadzenie współczynnik korelacji znajduje się tutaj . $R^{2}$ $R^{2}$ $R^{2}$

Dowód, że współczynnik korelacji jest równoważny współczynnik korelacji Pearsona między kwadratu obserwowanych wartości i dopasowane wartości może znaleźć tutaj . $y_{i}$ $\hat{y}_{i}$

lub współczynnik determinacji wskazuje siłę modelu w wyjaśnić zmienną zależną. W twoim przypadku, . To, że Twój model jest w stanie wyjaśnić 8,9% wariancji zmiennej zależnej. Albo, współczynnik korelacji między i twoich dopasowanych wartości jest 0,089. Co stanowi dobrą jest dyscyplina zależne. $R^{2}$ $R^{2}=0.089$ $y_{i}$ $\hat{y}_{i}$ $R^{2}$

Wreszcie do ostatniej części twojego pytania. Nie można uzyskać testu Durbina-Watsona, który mówi coś o korelacji między zmiennymi zależnymi i niezależnymi. Testy Durbina-Watsona testują korelację szeregową. Przeprowadzane jest w celu sprawdzenia, czy terminy błędów są wzajemnie skorelowane.

— Lionel Benza
źródło

9

wartość informuje, ile różnice w danych jest wyjaśnione przez dopasowanego modelu. $R^2$

Niska wartość w twoim badaniu sugeruje, że twoje dane prawdopodobnie rozprzestrzeniają się szeroko wokół linii regresji, co oznacza, że model regresji może wyjaśnić (bardzo niewiele) 8,9% zmienności danych. $R^2$

Czy sprawdziłeś, czy model liniowy jest odpowiedni? Spójrz na rozkład swoich pozostałości, ponieważ możesz to wykorzystać do oceny dopasowania modelu do twoich danych. Idealnie, twoje reszty nie powinny wykazywać związku z twoimi wartościami , a jeśli tak, możesz pomyśleć o przeskalowaniu zmiennych w odpowiedni sposób lub dopasowaniu bardziej odpowiedniego modelu. $x$

— jedfrancis
źródło

Dzięki @jed. Tak, sprawdziłem normalność resztek i wszystko było dobrze. Twoja sugestia, że dane są szeroko rozłożone wokół tej linii regresji, jest dokładnie właściwa - punkty danych wyglądają jak chmura wokół linii regresji wykreślonej przez oprogramowanie.

— Mog

1

Witamy na naszej stronie, @jed, i dziękujemy za odpowiedź! Należy pamiętać, że samo nachylenie nie mówi prawie nic o korelacji, oprócz jej znaku, ponieważ korelacja nie zależy od jednostek, w których mierzone są X i Y, ale nachylenie robi.

— whuber

1

@whuber mówi, że wartość nachylenia nie nie powiedzieć nic o sile związku, chyba że zmienne są standaryzowane. Zobacz odpowiedź shabbychefs.

— wolf.rauch

@ wolf.rauch gotcha

— jedfrancis

@jed Byłoby dobrze, gdybyś poprawił swoją odpowiedź.

— whuber

7

Dla regresji liniowej, zamocowana Nachylenie będzie korelację (co, gdy kwadrat daje współczynnik oznaczania, ) razy empiryczny odchylenie standardowe regressand (The ) podzielonej przez empiryczną odchylenia standardowego regressor ( ). W zależności od skalowanie i , można mieć nachylenie dopasowanie równy jeden, ale dowolnie małej wartości. $R^2$ $y$ $x$ $x$ $y$ $R^2$

Krótko mówiąc, nachylenie nie jest dobrym wskaźnikiem „dopasowania” modelu, chyba że masz pewność, że skale zmiennych zależnych i niezależnych muszą być sobie równe.

— shabbychef
źródło

1

Podoba mi się już udzielona odpowiedź, ale pozwólcie, że uzupełnię je innym (i bardziej wymownym) podejściem.

Załóżmy, że zbieramy wiele obserwacji od 1000 przypadkowych osób próbujących dowiedzieć się, czy ciosy w twarz są związane z bólami głowy:

H. mi za re za do h mi s = β_{0} + β_{1} P. u n do h_ja n_t h mi_fa za do mi + ε

$Headaches = \beta_0 + \beta_1 Punch\_in\_the\_face + \varepsilon$

$\varepsilon$

$\beta_1$ $R^2$

Graficznie wygląda to prawdopodobnie na strome zbocze, ale z bardzo dużą zmiennością wokół tego zbocza.

— cd98
źródło

0

@Macro miał świetną odpowiedź.

Szacunkowa wartość nachylenia sama w sobie nie mówi o sile związku. Siła zależności zależy od wielkości wariancji błędu i zakresu predyktora. Ponadto znaczna wartość pp niekoniecznie oznacza, że istnieje silny związek; wartość pp sprawdza po prostu, czy nachylenie wynosi dokładnie 0.

Chcę tylko dodać numeryczny przykład, aby pokazać, jak wygląda opisany przypadek OP.

$R^2$
Znaczący na wartości p

$1.0$

set.seed(6)
y=c(runif(100)*50,runif(100)*50+10)
x=c(rep(1,100),rep(10,100))
plot(x,y)

fit=lm(y~x)
summary(fit)
abline(fit)


> summary(lm(y~x))

Call:
lm(formula = y ~ x)

Residuals:
   Min     1Q Median     3Q    Max 
-24.68 -13.46  -0.87  14.21  25.14 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
x             0.9164     0.2407   3.807 0.000188 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 15.32 on 198 degrees of freedom
Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877

— Haitao Du
źródło