Pozostałości surowe a resztki standaryzowane a resztki studenckie - co stosować, kiedy?

To wygląda na podobne pytanie i nie uzyskało wielu odpowiedzi.

Pomijając testy, takie jak D Cooka, i patrząc na resztki jako grupę, interesuje mnie, w jaki sposób inni używają resztek podczas oceny dobroci dopasowania. Używam surowych pozostałości:

na wykresie QQ do oceny normalności
w wykresie rozrzutu porównaniu do reszt, w celu sprawdzenia gałki ocznej (a) hetereoscedastyczności i (b) seryjnej autokorelacji. $y$

Do wykreślenia względem reszt w celu zbadania wartości których mogą wystąpić wartości odstające, wolę używać uczonych reszt . Powodem, dla którego wolę, jest to, że pozwala na łatwe sprawdzenie, które reszty, przy których wartości są problematyczne, chociaż standaryzowane reszty dają bardzo podobny wynik. Moja teoria, na której się opiera, jest taka, że zależy to od tego, na którą uczelnię poszedłeś. $y$ $y$ $y$

Czy jest to podobne do sposobu, w jaki inni używają pozostałości? Czy inni używają tej liczby wykresów w połączeniu ze statystykami podsumowującymi?

goodness-of-fit residuals

— Michelle
źródło

Studenckie reszty są bez wątpienia lepsze w wykrywaniu wartości odstających, a być może nieco lepsze w kontroli heteroscedastyczności. Do innych celów nie ma dla mnie znaczenia, jakich reszt użyć.

— ttnphns

Aby zwrócić uwagę na pytanie, Michelle, lub poprosić o zmianę jego statusu (np. CW), kliknij link „Zgłoś” pod pytaniem. To automatycznie powiadomi wszystkich moderatorów. Osadzanie próśb w pytaniach, komentarzach lub odpowiedziach jest trafione, ponieważ zależy od nadziei, że moderator (lub inny użytkownik o dużej liczbie powtórzeń) przeczyta je w rozsądnym czasie!

— whuber

@ Whuber Ah, widzę, że myślałem, że jeden z was w końcu to przeczyta. :) Dzięki za wskazówkę dotyczącą używania flag.

— Michelle,

Cześć @ttnphns Dlaczego mieliby być lepsi? W szczególności, dlaczego uczniowie mieliby być lepsi niż znormalizowani? (Nigdy tak naprawdę nie znałem tutaj odpowiedzi)

— Peter Flom - Przywróć Monikę

@Peter, resztki studenckie są mniej „zniekształcone” przez algo pasujące OLS i są bliższe teoretycznemu pojęciu „błędów” . Można je bezpośrednio porównywać w różnych obszarach linii dopasowania, dlatego lepiej jest zdecydować, czy punkt jest wartością odstającą.

— ttnphns

Odpowiedzi:

To nie tyle odpowiedź, co wyjaśnienie terminologii. Twoje pytanie dotyczy surowych, znormalizowanych i studenckich pozostałości. Jednak nie jest to terminologia stosowana przez większość statystyków, choć zauważam, że w notatkach klasowych tak jest.

Surowe: tak jak masz.

Standaryzowane: w rzeczywistości są to surowe reszty podzielone przez prawdziwe standardowe odchylenie reszty. Ponieważ prawdziwe odchylenie standardowe jest rzadko znane, znormalizowana reszta prawie nigdy nie jest używana.

Studiowane wewnętrznie: ponieważ prawdziwe odchylenie standardowe reszt nie jest zwykle znane, zamiast tego stosuje się szacowane odchylenie standardowe. Jest to pozostałość między uczniami, którą nazwaliście standaryzowaną.

Studiowane zewnętrznie: to samo co reszty studenckie wewnętrznie, z tym wyjątkiem, że szacunkowe odchylenie standardowe reszt oblicza się na podstawie regresji pomijającej obserwację.

Pearson: surowa reszta podzielona przez odchylenie standardowe zmiennej odpowiedzi (zmiennej y), a nie reszt. Nie ma tego na liście.

„out one out”: Nie ma formalnej nazwy, ale jest taki sam jak notatki klasowe.

znormalizowane „zostaw jedno”: również nie ma formalnej nazwy, ale nie tak uczniowie nazywają notatki klasowe.

Źródła:

ten sam link wiki, który masz o resztach studenckich („resztka studentów jest ilorazem wynikającym z podziału resztki przez oszacowanie jej odchylenia standardowego”)
dokumentacja do obliczeń rezydualnych w SAS

— Michael Cooney
źródło

+1 Z pewnością niektórzy statystycy używali terminów w pytaniu PO (i nie zawsze idealnie spójnie z innymi używającymi tych samych słów). Myślę, że terminy, które używasz, stają się coraz bardziej popularne, ale nie jestem pewien, na jakiej podstawie moglibyśmy zgadywać ich względnie ogólnoświatowe użycie wśród statystyk - na przykład artykuły niekoniecznie pomagają, ponieważ przeciętny statystyk nie będzie aktywnie wydawniczy. Możesz mieć rację - ale skąd mamy wiedzieć? [Jeśli zdarzy ci się ponownie edytować, możesz zamienić „standaryzowany” pod koniec na „standaryzowany”.]

— Glen_b

Re: działki,

Istnieje coś takiego jak nadmierne dopasowanie, ale nadmierne wykreślanie naprawdę nie może wyrządzić wiele szkody, szczególnie na etapie diagnostyki. Standaryzowany wykres normalnego prawdopodobieństwa nie może boleć obok wykresu QQ. Lepiej oceniam środek rozkładu.

Re: pozostałości,

Realizuję zarówno znormalizowane, jak i studenckie resztki na etapie projektu i zwykle kończę kodowanie znormalizowanych. Nie wiem, co faktycznie uruchamiają inni ludzie, ponieważ diagnostyka jest naprawdę zakodowana w materiale replikacyjnym, który znajduję online.

Re: diagnostyka,

W przypadku modelu liniowego zwykle dodaję współczynniki inflacji wariancji (z vifpoleceniem w Stacie) i kilka testów homoscedastyczności (np. Z hettestpoleceniem w Stacie), a także dekompozycję modelu z zagnieżdżoną regresją, aby sprawdzić, czy ma jakiś sens . $R^2$

— Ks.
źródło