Temat, o który pytasz, to wielokoliniowość . Możesz przeczytać niektóre wątki na CV skategoryzowane pod tagiem wielokoliniowości . Warto również poświęcić czas na powyższą odpowiedź @ whubera, do której odsyłam powyżej .
Twierdzenie, że „jeśli dwa predyktory są skorelowane i oba są zawarte w modelu, jeden będzie nieistotny”, nie jest poprawne. Jeśli istnieje rzeczywisty wpływ zmiennej, prawdopodobieństwo, że zmienna będzie znacząca, jest funkcją kilku rzeczy, takich jak wielkość efektu, wielkość wariancji błędu, wariancja samej zmiennej, ilość danych masz i liczbę innych zmiennych w modelu. To, czy zmienne są skorelowane, jest również istotne, ale nie zastępuje tych faktów. Rozważ następującą prostą demonstrację w R
:
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
Korelacja między dwiema zmiennymi jest najniższa w pierwszym przykładzie i najwyższa w trzecim, ale żadna ze zmiennych nie jest znacząca w pierwszym przykładzie, a obie są w ostatnim przykładzie. Wielkość efektów jest identyczna we wszystkich trzech przypadkach, a wariancje zmiennych i błędy powinny być podobne (są one stochastyczne, ale pochodzą z populacji o tej samej wariancji). Wzór, który tu widzimy, wynika przede wszystkim z tego, że manipulowałem dla każdego przypadku. N
Kluczową koncepcją, którą należy zrozumieć, aby rozwiązać swoje pytania, jest współczynnik inflacji wariancji (VIF). VIF to o ile wariancja współczynnika regresji jest większa niż w innym przypadku, gdyby zmienna była całkowicie nieskorelowana ze wszystkimi innymi zmiennymi w modelu. Zauważ, że VIF jest multiplikatywnym czynnikiem, jeśli zmienna, o której mowa, jest nieskorelowana, VIF = 1. Proste zrozumienie VIF jest następujące: możesz dopasować model przewidujący zmienną (powiedzmy ) ze wszystkich innych zmiennych w twoim modelu (powiedzmy ) i uzyskać wielokrotność . VIF dla to . Powiedzmy, że VIF dla toX 2 R 2 X 1 1 / ( 1 - R 2 ) X 1 10 X 1 10 × X 1X1X2R2X11/(1−R2)X110(często uważany za próg nadmiernej wielokoliniowości), wówczas wariancja rozkładu próbkowania współczynnika regresji dla byłaby większa niż byłaby, gdyby był całkowicie nieskorelowany ze wszystkimi innymi zmiennymi w modelu. X110×X1
Myślenie o tym, co by się stało, gdybyś uwzględnił obie skorelowane zmienne vs. tylko jedna jest podobna, ale nieco bardziej skomplikowana niż podejście omówione powyżej. Wynika to z faktu, że nie uwzględnienie zmiennej oznacza, że model wykorzystuje mniejszy stopień swobody, co zmienia wariancję resztkową i wszystko obliczone na tej podstawie (w tym wariancję współczynników regresji). Ponadto, jeśli nieuwzględniona zmienna naprawdę jest powiązana z odpowiedzią, wariancja odpowiedzi spowodowana tą zmienną zostanie uwzględniona w wariancji rezydualnej, czyniąc ją większą niż w innym przypadku. Tak więc kilka rzeczy zmienia się jednocześnie (zmienna jest skorelowana lub nie z inną zmienną, a wariancja rezydualna), a dokładny efekt porzucenia / włączenia innej zmiennej będzie zależeć od tego, w jaki sposób te kompromisy się wymieniają.
Uzbrojeni w zrozumienie VIF, oto odpowiedzi na twoje pytania:
- Ponieważ wariancja rozkładu próbkowania współczynnika regresji byłaby większa (o współczynnik VIF), gdyby był skorelowany z innymi zmiennymi w modelu, wartości p byłyby wyższe (tj. Mniej znaczące) niż w przeciwnym razie .
- Warianty współczynników regresji byłyby większe, jak już wspomniano.
- Zasadniczo trudno jest to ustalić bez rozwiązania modelu. Zazwyczaj, jeśli tylko jeden z dwóch jest znaczna, to będzie taka, która miała silniejszy związek dwuwymiarowe z . Y
- To, jak zmieniłyby się przewidywane wartości i ich wariancja, jest dość skomplikowane. Zależy to od tego, jak silnie skorelowane są zmienne i sposób, w jaki wydają się być powiązane ze zmienną odpowiedzi w twoich danych. Jeśli chodzi o ten problem, może pomóc ci przeczytać moją odpowiedź tutaj: czy istnieje różnica między „kontrolowaniem” a „ignorowaniem” innych zmiennych w regresji wielokrotnej?