Czy rząd zmiennej ma znaczenie w regresji liniowej


9

Badam wzajemne oddziaływanie dwóch zmiennych ( i ). Istnieje duża korelacja liniowa między tymi zmiennymi przy . Ze względu na naturę problemu nie mogę nic powiedzieć o związku przyczynowym (czy powoduje czy na odwrót). Chciałbym zbadać odchylenia od linii regresji, aby wykryć wartości odstające. Aby to zrobić, mogę albo zbudować regresję liniową jako funkcję , albo na odwrót. Czy mój wybór zmiennej kolejności może wpłynąć na moje wyniki?x1x2)r>0,9x1x2)x1x2)


W poszukiwaniu wartości odstających należy najpierw regresować zmienną zależną względem wartości i i poszukać wartości odstających. x1x2)
schenectady

Czy znalezienie wartości odstających jest początkiem twojego dochodzenia? Jeśli tak, to najpierw powinieneś regresować zmienną zależną zarówno od i a następnie wykonać testy wartości odstających. Jeśli znajdziesz możliwe przyczyny, powinieneś rozważyć wykonanie zaprojektowanego eksperymentu. Jeśli celem eksperymentu jest znalezienie związku między dwiema niezależnymi zmiennymi, sprawdzenie zdarzenia zebranych danych nie rozwiąże problemu. x1x2)
schenectady

Nie jest dla mnie jasne, co rozumiesz przez wartości odstające. Jeśli w twoich danych są wartości odstające, wpłyną one na obliczenie linii regresji. Dlaczego szukasz wartości odstających jednocześnie w i ? x1x2)
DQdlM

@schenectady Użyj $$ dla LaTeX w komentarzach, proszę.

Odpowiedzi:


3

To z pewnością może (w rzeczywistości ma nawet znaczenie w odniesieniu do założeń dotyczących twoich danych - przyjmujesz jedynie założenia dotyczące rozkładu wyniku na podstawie zmiennej towarzyszącej). W tym świetle możesz znaleźć termin „odwrotna wariancja predykcji”. Tak czy inaczej regresja liniowa nie mówi nic o związku przyczynowym! W najlepszym razie możesz powiedzieć coś o związku przyczynowym poprzez staranne zaprojektowanie.


3

Aby przypadek był symetryczny, można cofnąć różnicę między dwiema zmiennymi ( ) w stosunku do ich średniej wartości.Δx


3

Regresja standardowa minimalizuje pionową odległość między punktami a linią, więc przełączenie 2 zmiennych zminimalizuje teraz odległość poziomą (biorąc pod uwagę ten sam wykres rozproszenia). Inną opcją (która występuje pod kilkoma nazwami) jest zminimalizowanie odległości prostopadłej, można to zrobić za pomocą podstawowych składników.

Oto kod R, który pokazuje różnice:

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

Aby wyszukać wartości odstające, możesz po prostu wykreślić wyniki analizy podstawowych składników.

Możesz także spojrzeć na:

Bland i Altman (1986), Statystyczne metody oceny zgodności między dwiema metodami pomiaru klinicznego. Lancet, ss. 307-310


0

Twoje zmienne x1 i x2 są współliniowe. W obecności wielokoliniowości oszacowania parametrów są nadal obiektywne, ale ich wariancja jest duża, tzn. Twoje wnioskowanie na temat znaczenia oszacowań parametrów jest nieważne, a twoje przewidywania będą miały duże przedziały ufności.

Interpretacja oszacowań parametrów jest również trudna. W ramach regresji liniowej oszacowanie parametru na x1 jest zmianą Y dla zmiany jednostkowej x1, biorąc pod uwagę, że każda inna zmienna egzogeniczna w modelu jest utrzymywana na stałym poziomie. W twoim przypadku x1 i x2 są wysoce skorelowane i nie możesz utrzymać stałej x2, gdy zmienia się x1.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.