W regresji liniowej często otrzymujemy wielokrotność R i R do kwadratu. Jakie są między nimi różnice?
W regresji liniowej często otrzymujemy wielokrotność R i R do kwadratu. Jakie są między nimi różnice?
Odpowiedzi:
Wielkie (w przeciwieństwie do ) powinno ogólnie być wielokrotnością w modelu regresji wielokrotnej. W dwuwymiarowej regresji liniowej nie ma wielokrotności , a . Jedną różnicą jest możliwość zastosowania: „wielokrotne ” oznacza wiele regresorów, podczas gdy „ ” niekoniecznie.
Kolejną prostą różnicą jest interpretacja. W regresji wielokrotnej wielokrotność jest współczynnikiem wielokrotnej korelacji , podczas gdy jej kwadrat jest współczynnikiem determinacji . można interpretować nieco jak dwuwymiarowy współczynnik korelacji , przy czym główną różnicą jest to, że wielokrotna korelacja występuje między zmienną zależną a liniową kombinacją predyktorów, a nie tylko jedną z nich, a nie tylko średnią tych korelacji dwuwariantowych. można interpretować jako procent wariancji zmiennej zależnej, który można wyjaśnić za pomocą predyktorów ; jak wyżej, jest to również prawdą, jeśli istnieje tylko jeden predyktor.
W rzeczywistości wielokrotność R można postrzegać jako korelację między odpowiedzią a dopasowanymi wartościami. Jako taki zawsze jest pozytywny. Wiele R-kwadrat jest jego kwadratową wersją.
Pozwól mi zilustrować na przykładzie:
set.seed(32)
n <- 100
x1 <- runif(n)
x2 <- runif(n)
y <- 4 + x1 - 2*x2 + rnorm(n)
fit <- lm(y ~ x1 + x2)
summary(fit) # Multiple R-squared: 0.2347
(R <- cor(y, fitted(fit))) # 0.4845068
R^2 # 0.2347469
Nie ma potrzeby robienia dużego zamieszania wokół „wielokrotności” czy nie. Ta formuła zawsze obowiązuje, nawet w ustawieniach Anova. W przypadku, gdy istnieje tylko jedna zmienna zmienna , wówczas R ze znakiem nachylenia jest taki sam, jak korelacja między a odpowiedzią.
Po prostu wyjaśniam moim uczniom, że:
wielokrotność R należy traktować jako wartość bezwzględną współczynnika korelacji (lub współczynnika korelacji bez znaku ujemnego)!
Kwadrat R jest po prostu kwadratem wielokrotności R. Może być wyrażony jako procent zmienności spowodowanej przez zmienne niezależne
W ten sposób łatwo jest zrozumieć koncepcję i różnicę.