Nauczyłem się, że stosując vif()
metodę car
pakietu, możemy obliczyć stopień wielokoliniowości danych wejściowych w modelu. Z wikipedii , jeśli vif
wartość jest większa niż 5
wtedy, możemy uznać, że dane wejściowe cierpią z powodu problemu wielokoliniowości. Na przykład opracowałem model regresji liniowej przy użyciu lm()
metody i vif()
daje on następujące wyniki. Jak widzimy, wejścia ub
, lb
i tb
cierpi Współliniowość.
vif(lrmodel)
tb ub lb ma ua mb sa sb
7.929757 50.406318 30.826721 1.178124 1.891218 1.364020 2.113797 2.357946
W celu uniknięcia tego problemu Współliniowość a tym samym, aby mój model bardziej wytrzymałe, brałem interakcji pomiędzy ub
a lb
i teraz Vif stół nowego modelu jest następująca:
tb ub:lb ma mb sa sb ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218
Nie ma dużej różnicy w R^2
wartościach, a także nie ma dużej różnicy w błędach z jednoznacznych testów CV w obu powyższych dwóch przypadkach.
Moje pytania to:
Czy można uniknąć problemu wielokoliniowości, biorąc interakcję jak pokazano powyżej?
Czy istnieje lepszy sposób przedstawienia problemu wielokoliniowości w porównaniu z powyższymi wynikami metody vif.
Proszę podać mi swoje sugestie.
Dzięki.