Wykresy rezydualne: dlaczego wykres kontra wartości dopasowane, a nie obserwowane wartości ?


20

W kontekście regresji OLS rozumiem, że wykres resztkowy (w porównaniu z dopasowanymi wartościami) jest konwencjonalnie oglądany w celu przetestowania stałej wariancji i oceny specyfikacji modelu. Dlaczego reszty są wykreślane względem pasowań, a nie wartości ? Czym różnią się informacje od tych dwóch wykresów?Y

Pracuję nad modelem, który wytworzył następujące wykresy resztkowe:

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

Wykres w porównaniu z dopasowanymi wartościami wygląda dobrze na pierwszy rzut oka, ale drugi wykres względem wartości ma wzór. Zastanawiam się, dlaczego tak wyraźny wzór nie zamanifestuje się również w fabule szczątkowej vs.Y

Nie szukam pomocy w diagnozowaniu problemów z modelem, ale po prostu próbuję zrozumieć różnice (ogólnie) między (1) wykresem rezydualnym a dopasowanym i (2) wykresem rezydualnym aY

Jeśli chodzi o wartość, jestem pewien, że wzorzec błędów na drugim wykresie wynika z pominiętych zmiennych wpływających na DV. Obecnie pracuję nad uzyskaniem tych danych, które, jak się spodziewam, pomogą w ogólnym dopasowaniu i specyfikacji. Pracuję z danymi nieruchomości: DV = Cena sprzedaży. IVs: Powierzchnia domu, # miejsca w garażu, rok budowy, rok budowy . 2)


3
Pozwoliłem sobie na ulepszenie tytułu, aby bardziej pasował do twoich zamiarów. Nawet wśród ekonomistów (być może jesteś) „IV” ma inne znaczenie zmiennej instrumentalnej, chociaż w tym przypadku nie ma dwuznaczności. Dla lepszej komunikacji między kilkoma naukami statystycznymi niektórzy z nas odradzają lokalnie używane skróty, takie jak DV (co dla niektórych osób wciąż oznacza Deo volente ) i IV na rzecz sugestywnych terminów, takich jak reakcja lub wynik z jednej strony oraz predyktor lub zmienna towarzysząca z drugiej inny. Wiem, że jest to szczegół w twoim pytaniu, ale dobrze na nie udzielono odpowiedzi.
Nick Cox,

Odpowiedzi:


11

Konstruując, termin błędu w modelu OLS jest nieskorelowany z obserwowanymi wartościami współzmiennych X. Będzie to zawsze prawdziwe w odniesieniu do obserwowanych danych, nawet jeśli model generuje tendencyjne oszacowania, które nie odzwierciedlają prawdziwych wartości parametru, ponieważ założenie modelu jest naruszone (jak problem pominiętej zmiennej lub problem z odwrotną przyczynowością). Prognozowane wartości są całkowicie funkcją tych zmiennych towarzyszących, więc są one również nieskorelowane ze składnikiem błędu. Tak więc, kiedy rysujesz wartości resztkowe w stosunku do przewidywanych wartości, powinny one zawsze wyglądać losowo, ponieważ faktycznie nie są one skorelowane przez konstrukcję estymatora. W przeciwieństwie do tego, jest całkowicie możliwe (i rzeczywiście prawdopodobne), że warunek błędu modelu zostanie skorelowany z Y w praktyce. Na przykład, w przypadku dychotomicznej zmiennej X, dalsze prawdziwe Y pochodzi z jednego lub drugiegoE(Y | X = 1)lub E(Y | X = 0)im większa będzie resztkowa wartość. Oto ta sama intuicja z danymi symulowanymi w R, gdzie wiemy, że model jest bezstronny, ponieważ kontrolujemy proces generowania danych:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Otrzymujemy ten sam wynik zerowej korelacji z modelem tendencyjnym, na przykład, jeśli pominiemy x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

2
Pomocne, ale pierwsze zdanie można przepisać dla zachowania przejrzystości. „Konstrukcja” wytwarza pozostałości; termin błędu uznaje się za istniejący przed obliczeniem. Podobnie powiedziałbym, że konstruowane są szacunki, a nie estymator, czyli metoda użyta do ich skonstruowania.
Nick Cox,

Ale dlaczego w takim razie patrzymy na tabelę rezydualną (vs dopasowania)? Jaki cel diagnostyczny ma ten wykres? Jestem nowy na stronie. Czy muszę otagować Michaela, czy automatycznie otrzymuje ten komentarz? Mój komentarz dotyczyłby również poniższej odpowiedzi @Glen_b. Obie odpowiedzi pomagają mi zrozumieć. Dzięki.
Mac

... ponieważ mogą ujawnić inną strukturę. Brak korelacji między resztą a dopasowaniem nie oznacza, że ​​inne rzeczy też się nie mogą zdarzyć. Jeśli uważasz, że Twój model jest idealny, nie uwierzysz, że jest to możliwe ... W praktyce musisz sprawdzić inne rodzaje konstrukcji.
Nick Cox

@ Mac, będę szczery i powiem, że nigdy nie patrzę na te wątki. Jeśli próbujesz wyciągnąć wnioski przyczynowe, powinieneś przemyśleć pomijane problemy zmienne i odwracać problemy przyczynowe koncepcyjnie. Może wystąpić jeden z tych problemów i nie można by spojrzeć na nie z tych wykresów, ponieważ są to problemy z równoważnością obserwacyjną. Jeśli liczysz się tylko z prognozowaniem, powinieneś przemyśleć i przetestować wyniki poza próbą, jak dobrze przewidywania twojego modelu działają poza próbą (w przeciwnym razie nie jest to prognoza).
Michael

@NickCox Tak, mam na myśli termin błędu oszacowany przez model, a nie prawdziwą wartość parametru.
Michael

20

Dwa fakty, które zakładam, że jesteś ze mną zadowolony, stwierdzając:

yja=y^ja+mi^ja

Cov(y^ja,mi^ja)=0

Następnie:

Cov(yja,mi^ja)=Cov(y^ja+mi^ja,mi^ja)

=Cov(y^ja,mi^ja)+Cov(mi^ja,mi^ja)

=0+σmi2)

=σmi2)

Więc chociaż dopasowana wartość nie jest skorelowana z resztą, obserwacja jest .

W rzeczywistości dzieje się tak, ponieważ zarówno obserwacja, jak i pozostałość są powiązane z błędem.

Zwykle utrudnia to wykorzystanie wykresu resztkowego do celów diagnostycznych.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.