Jest studentizowanymi resztkami v / s standaryzowanymi resztkami w modelu lm

Czy „resztki studenckie” i „resztki standaryzowane” są takie same w modelach regresji? Zbudowałem model regresji liniowej w R i chciałem wykreślić wykres dopasowanych wartości reszt studenckich v / s, ale nie znalazłem zautomatyzowanego sposobu na zrobienie tego w R.

Załóżmy, że mam model

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

następnie użycie plot(lm.fit)nie zapewnia żadnego wykresu reszt uczenizowanych względem dopasowanych wartości, ale jednak zapewnia wykres znormalizowanych reszt względem dopasowanych wartości.

Użyłem plot(lm.fit$fitted.values,studres(lm.fit)i wykreśli pożądany wykres, więc po prostu chcę potwierdzić, że idę właściwą drogą, a resztki z uczniami i znormalizowanymi nie są tym samym. Jeśli są one różne, proszę podać przewodnik do ich obliczania i ich definicji. Przeszukałem sieć i stwierdziłem, że jest trochę myląca.

r regression residuals terminology

— uczeń
źródło

+1 Jest to mylące, ponieważ (a) rzeczywiście tego rodzaju pozostałości różnią się, ale (b) różne władze nie zgadzają się, jak je nazwać! Na przykład Rterminologia jest przeciwieństwem Montgomery, Peck i Vining (popularny podręcznik regresji, który istnieje już od 35 lat). Uważaj więc i zapoznaj się z Rdokumentacją oraz, jeśli to konieczne, z jej kodem źródłowym, zamiast polegać na tym, co według ciebie oznacza terminologia.

— whuber

Nie, resztki studentizowane i resztki standaryzowane są różnymi (ale pokrewnymi) pojęciami.

R w rzeczywistości zapewnia wbudowane funkcje rstandard()i rstudent()jako część wpływu . Ten sam wbudowany pakiet zapewnia wiele podobnych funkcji dźwigni, odległości Cooka itp. rstudent()Jest zasadniczo taki sam, jak to MASS::studres(), co możesz sprawdzić w ten sposób:

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

Standaryzowane wartości resztkowe są sposobem oszacowania błędu dla określonego punktu danych, który uwzględnia dźwignię / wpływ punktu. Są to czasem nazywane „resztkami wewnętrznie studenckimi”.

r_{ja} = \frac{{mi}_{ja}}{s ({mi}_{ja})} = \frac{{mi}_{ja}}{\sqrt{M. S. mi (1 - h_{ja ja})}}

$r_{i}=\frac{e_{i}}{s(e_{i})}=\frac{e_{i}}{\sqrt{MSE(1-h_{ii})}}$

Motywacja za znormalizowanymi resztkami polega na tym, że chociaż nasz model zakładał homoscedastyczność ze składnikiem błędu iid ze stałą wariancją $\epsilon_i \sim \mathbb{N}(0, \sigma^2)$ , rozkład, reszty $e_i$ nie można podać, ponieważ suma reszt jest zawsze dokładnie zero.

Studenckie reszty dla dowolnego danego punktu danych są obliczane na podstawie dopasowania modelu do każdego innego punktu danych oprócz tego, o którym mowa. Są one różnie nazywane „zewnętrznie uczonymi resztkami”, „resztkami usuniętymi” lub „resztkami zgrzytanymi”.

Brzmi to trudnie obliczeniowo ( brzmi, jakbyśmy musieli dopasować jeden nowy model do każdego punktu), ale w rzeczywistości istnieje sposób, aby obliczyć go tylko z oryginalnego modelu bez ponownego montażu. Jeśli znormalizowana pozostałość to $r_i$ , a następnie resztki uczone $t_i$ jest:

t_{ja} = r_{ja} {(\frac{n - k - 2)}{n - k - 1 - r_{ja}^{2)}})}^{1 / 2)},

$t_i=r_i \left( \frac{n-k-2}{n-k-1-r_{i}^{2}}\right) ^{1/2},$

Motywacja studentów resztek wynika z ich wykorzystania w testach odstających. Jeśli podejrzewamy, że punkt jest wartością odstającą, to z definicji nie został wygenerowany z przyjętego modelu. Dlatego błędem - naruszeniem założeń - byłoby włączenie tej wartości odstającej do dopasowania modelu. Studenckie reszty są szeroko stosowane w praktycznym wykrywaniu wartości odstających.

Studiowane reszty mają również pożądaną właściwość, że dla każdego punktu danych rozkład reszty będzie rozkładem t Studenta, przy założeniu, że spełnione zostały założenia normalności oryginalnego modelu regresji. (Standaryzowane reszty nie mają tak ładnego rozkładu.)

Wreszcie, aby rozwiązać wszelkie obawy, że biblioteka R może być zgodna z nomenklaturą inną niż powyżej, dokumentacja R wyraźnie stwierdza, że używa ona „znormalizowanego” i „uczonego” w dokładnie takim samym znaczeniu, jak opisano powyżej.

Działa rstandardi rstudentdaje odpowiednio znormalizowane i zindeksowane resztki. (Powodują one ponowną normalizację resztek w celu uzyskania wariancji jednostkowej, stosując odpowiednio ogólną i pomijalną miarę wariancji błędu.)

— olooney
źródło