Czy warto badać wykresy reszt w odniesieniu do zmiennej zależnej?

11

Chciałbym wiedzieć, czy warto badać wykresy reszt w odniesieniu do zmiennej zależnej, gdy mam regresję jednowymiarową. Jeśli ma to sens, co oznacza silna, liniowa, rosnąca korelacja między resztami (na osi y) a oszacowanymi wartościami zmiennej zależnej (na osi x)?

wprowadź opis zdjęcia tutaj

regression residuals

— Luigi
źródło

3

Nie jestem pewien, co rozumiesz przez „silną, liniową, rosnącą korelację”. Czy możesz pokazać fabułę? Wyrównanie reszt względem dopasowanych wartości jest całkowicie rozsądne. Ogólnie rzecz biorąc, chcesz, aby nie było żadnego związku - płaska pozioma linia biegnąca przez środek. Ponadto chcesz, aby pionowe rozproszenie reszt było stałe od lewej strony wykresu do prawej.

— gung - Przywróć Monikę

Cześć. Dziękuję za Twoją odpowiedź. Oto fabuła: img100.imageshack.us/img100/7414/bwages.png

— Luigi,

To jest kłopotliwe. Pozwól, że upewnię się, że rozumiem: prowadziłeś model regresji, a następnie wykreśliłeś wartości resztkowe względem dopasowanych wartości, i właśnie to masz, prawda? To nie powinno tak wyglądać. Czy możesz edytować swoje pytanie i wkleić kod użyty dla modelu i fabuły?

— gung - Przywróć Monikę

Dobrze zrozumiałeś. Przepraszam, ale nie wiem, jak odzyskać kod, uruchomiłem regresję i narysowałem resztki za pomocą programu Gretl.

— Luigi,

2

Początkowo nie widziałem komentarza @ mark999, kiedy napisałem swoją odpowiedź poniżej. Myślę, że jego podejrzenie jest słuszne, że jest to wartość resztkowa vs. wartości y. Luigi, przerób swój wykres - nie próbuj interpretować go, kiedy możesz się mylić co do zmiennych.

— Michael Bishop

12

Załóżmy, że masz regresję , gdzie . Następnie . Im wyższa wartość , tym większa wartość rezydualna. Przeciwnie, wykres reszt względem powinien wykazywać żadnego systematycznego związku. Ponadto przewidywana wartość powinna być w przybliżeniu --- taka sama dla każdej obserwacji. Jeśli wszystkie przewidywane wartości są w przybliżeniu takie same, powinny być nieskorelowane z błędami. $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ $\beta_1 \approx 0$ $y_i - \beta_0 \approx \epsilon_i$ $y$ $x$ $\hat{y}_i$ $\hat{\beta}_0$

Co fabuła mówi mi, że i są zasadniczo niezwiązane (oczywiście, że są lepsze sposoby, aby pokazać to). Daj nam znać, jeśli Twój współczynnik nie jest bliski . $x$ $y$ $\hat{\beta}_1$

W celu lepszej diagnostyki użyj wykresu reszt w stosunku do przewidywanego wynagrodzenia lub wartości . Na tych wykresach nie powinieneś obserwować wyraźnego wzoru. $x$

Jeśli chcesz trochę demonstracji R, proszę:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

— Charlie
źródło

Nie oznacza to, że tylko z powodu może być możliwe, że model potrzebuje więcej zmiennych objaśniających, takich jak terminy wielomianowe.

β_{1} = 0

$\beta_1=0$

— Biostat

5

Zakładając, że oszacowany model jest poprawnie określony ...

Oznaczmy , macierz jest macierzą projekcji, więc i . $P_X=X(X'X)^{-1}X'$ $P_X$ $P_X^2=P_X$ $P_X'=P_X$

$Cov(\hat{Y},\hat{e})=Cov(P_XY,(I-P_X)Y)=P_XCov(Y,Y)(I-P_X)'=\sigma^2P_X(I-P_X)=0$ .

Tak więc wykres rozproszenia reszt względem przewidywanej zmiennej zależnej nie powinien wykazywać korelacji.

Ale!

$Cov(Y,\hat{e})=Cov(Y,(I-P_X)Y)=Cov(Y,Y)(I-P_X)'=\sigma^2(I-P_X)$ .

Macierz jest macierzą projekcji, jej wartości własne wynoszą 0 lub +1, jest to dodatnia półfinał. Powinien więc mieć wartości nieujemne na przekątnej. Zatem wykres rozproszenia reszt względem oryginalnej zmiennej zależnej powinien wykazywać korelację dodatnią. $\sigma^2(I-P_X)$

O ile wiem, Gretl domyślnie tworzy wykres reszt w stosunku do oryginalnej zmiennej zależnej (nie przewidywanej!).

— Roah
źródło

Doceniam inną możliwość. Tutaj pomocna jest znajomość języka Gretl. Zastanawiam się jednak, jak prawdopodobne jest to, że jest to prawdziwa odpowiedź. Korzystając z moich danych symulowanych, skorelowałem i wykreśliłem resztki względem oryginalnego DV; r = 0,22, a wykres wygląda bardzo podobnie do mojego trzeciego wykresu, a nie wykresu pytań. Oczywiście opracowałem te dane, aby sprawdzić wiarygodność mojej historii - mogą one nie być odpowiednie do sprawdzenia twoich.

— gung - Przywróć Monikę

@gung, co masz na myśli mówiąc, że wykorzystałeś symulowane dane?

— Michael Bishop

@MichaelBishop, jeśli spojrzysz na moją odpowiedź, zobaczysz, że symulowałem dane, aby wypróbować moją historię, aby sprawdzić, czy będzie to wyglądało jak opublikowana fabuła. Mój kod i wykresy są przedstawione. Ponieważ podałem ziarno, jest ono powtarzalne dla każdego, kto ma dostęp do R.

— gung - Przywróć Monikę

4

Czy to możliwe, że mylisz wartości dopasowane / prognozowane z wartościami rzeczywistymi?

Jak powiedzieli @gung i @biostat, masz nadzieję, że nie ma związku między dopasowanymi wartościami a resztkami. Z drugiej strony należy oczekiwać liniowej zależności między rzeczywistymi wartościami zmiennej zależnej / wyniku a resztami i nie jest to szczególnie pouczające.

Dodano w celu wyjaśnienia poprzedniego zdania: Nie należy oczekiwać żadnej liniowej zależności między resztami a rzeczywistymi wartościami wyjściowymi ... W przypadku niskich zmierzonych wartości Y, przewidywane wartości Y z użytecznego modelu będą zwykle wyższe niż rzeczywiste zmierzone wartości i na odwrót.

— Michael Bishop
źródło

Implikacja tego, co mówisz, jest taka, że jeśli wartości są konsekwentnie niedoceniane przy niskich wartościach Y i konsekwentnie są zbyt zawyżone przy wysokich wartościach Y, to jest OK. To jest problem, prawda?

— rolando2,

@ rolando2, nie sugerowałem, co powiedziałeś, sugerowałem, choć być może powinienem wyjaśnić moją odpowiedź. Jak powiedziałeś, konsekwentne niedocenianie niskich wartości Y i nadmierne przewidywanie wysokich wartości Y byłoby oznaką bardzo złego modelu. Wyobraziłem sobie, że jest wręcz przeciwnie, przesadzając przy niskich wartościach Y i niedoszacowując przy wysokich wartościach Y. Zjawisko to jest powszechne i należy się spodziewać w przybliżeniu proporcjonalnie do tego, ile wariancji zmiennej zależnej jesteś w stanie wyjaśnić. Wyobraź sobie, że brakuje ci zmiennych, które przewidują Y, więc zawsze używasz średniej jako swojej prognozy

— Michael Bishop

1

to, co powiedziałeś, ma dla mnie sens, z wyjątkiem jednej rzeczy. Mam problem z wyobrażeniem sobie, że tak silny trend jak ten, który pokazał Luigi, pojawiłby się w rozsądnym lub pożądanym rozwiązaniu, nawet jeśli trend zmieniłby się z lewej górnej na prawą dolną.

— rolando2,

1

@ rolando2, Reszty są zazwyczaj definiowane zgodnie z obserwacjami - dopasowane, dlatego też reszty ujemne są zawyżone. W odpowiednio określonym modelu z małą mocą wyjaśniającą - jestem naukowcem, więc widzę to cały czas - będzie silny pozytywny związek między resztami a obserwowanymi wartościami wyników. Jeśli jest to wykres resztkowy w stosunku do rzeczywistej, to trend od lewej górnej do prawej dolnej byłby sygnałem źle źle określonego modelu, o który początkowo się martwiłeś.

— Michael Bishop

Okej, moja wina. Jak napisali Michael Bishop i Roah, Gretl kreśli resztki w odniesieniu do obserwowanego y, a nie przewidywanego. Bardzo przepraszam za cały ten bałagan, naprawdę nie spodziewałem się tych wszystkich odpowiedzi. Jestem początkującym i popełniłem ten błąd, więc mam nadzieję, że możesz mi „wybaczyć”. W każdym razie uważam, że powinno to wskazywać, że powinienem był zastosować więcej zmiennych objaśniających. Dziękuje za wszystko!

— Luigi,

3

Oferowane odpowiedzi dają mi kilka pomysłów na temat tego, co się tutaj dzieje. Wierzę, że mogły być jakieś błędy popełnione przez przypadek. Sprawdź, czy poniższa historia ma sens: Na początek myślę, że prawdopodobnie istnieje silny związek między X i Y w danych (oto trochę kodu i wykresu):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

wprowadź opis zdjęcia tutaj

Ale przez pomyłkę Y przewidywano tylko ze średniej. Łącząc to, reszty ze średniego modelu są wykreślane względem X, nawet jeśli zamierzano wykreślić względem dopasowanych wartości (kod i wykres):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

wprowadź opis zdjęcia tutaj

Możemy to naprawić, dopasowując odpowiedni model i wykreślając z niego resztki (kod i wykres):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

wprowadź opis zdjęcia tutaj

Wydaje się, że to tylko takie głupstwa, które robiłem, kiedy zaczynałem.

— gung - Przywróć Monikę
źródło

0

Ten wykres wskazuje, że dopasowany model nie jest dobry. Jak powiedział @gung w pierwszych komentarzach do głównego pytania, że nie powinno być związku między przewidywaną odpowiedzią a resztą.

„analityk powinien oczekiwać, że model regresji pomyli się w przewidywaniu reakcji w sposób losowy; model powinien przewidzieć wartości wyższe niż rzeczywiste i niższe niż rzeczywiste z jednakowym prawdopodobieństwem. Zobacz to ”

Poleciłbym pierwszą odpowiedź wykresu vs zmienną niezależną, aby zobaczyć związek między nimi. Uzasadnione może być dodanie do modelu terminów wielomianowych.

— Biostat
źródło

0

Czy nie dzieje się tak, jeśli nie ma związku między zmienną X i Y? Patrząc na ten wykres, wydaje się, że zasadniczo prognozujesz Y na podstawie jego średniej.

— Adam
źródło

0

Myślę, że OP wykreślił resztki względem oryginalnej zmiennej odpowiedzi (nie dopasowanej zmiennej odpowiedzi z modelu). Cały czas widzę takie wykresy, z niemal identycznym wzorem. Upewnij się, aby wykreślić wartości resztkowe względem dopasowanych wartości, ponieważ nie jestem pewien, jaki sensowny wniosek można wyciągnąć z reszt względem oryginalnego Y. Ale z pewnością mogę się mylić.

— Todai
źródło