Jaka jest różnica między standaryzacją a uczniem?

21

Czy jest tak, że w standaryzacji znana jest wariancja, podczas gdy w trakcie studentizacji nie jest znana, a zatem szacowana? Dziękuję Ci.

standardization

— 58485362
źródło

2

Możesz wyjaśnić kontekst swojego pytania. Jakiego rodzaju standaryzacja, jaki rodzaj studentizacji? Do czego służą te wartości?

— russellpierce

3

Jeśli pytasz o resztki , to terminologia nie jest (nie) znormalizowana . Różni autorzy używają różnych nazw dla tej samej rzeczy, a czasami - i niestety najbardziej myląco, tej samej nazwy dla różnych rzeczy. Są to, co nazywam (i) skalowanymi resztkami ( , zwanymi przez niektórych autorów znormalizowanymi resztkami); (ii) resztki uczone wewnętrznie (zwane znormalizowanymi przez niektórych autorów / pakiety, uczonymi przez innych); (iii) zewnętrznie studentizowane / studentizowane usunięte resztki

(y - {\hat{y}}_{i}) / s

$(y-\hat{y}_i)/s$

— Glen_b

20

Krótkie podsumowanie. Biorąc pod uwagę wzór $y=X\beta+\varepsilon$ , gdzie $X$ jest $n\times p$ , i , gdzie $\hat\beta=(X'X)^{-1}X'y$ $\hat y=X\hat\beta=X(X'X)^{-1}X'y=Hy$ $H=X(X'X)^{-1}X'$ jest „matrycą kapeluszową”. Reszty są

e = y - \hat{y} = y - H y = (I - H) y

$e=y-\hat y=y-Hy=(I-H)y$ wariancja populacyjna

σ^{2}

$\sigma^2$ jest znany i może być określona przez

M S E

$MSE$ , średni błąd kwadratowy.

Semistudentyzowane reszty są zdefiniowane jako , ale ponieważ wariancja reszt zależy zarównoi, szacowane wariancja w którymjestp przekątnej elementem matrycy kapelusza.

e_{i}^{*} = \frac{e_{i}}{\sqrt{M S E}}

$e_i^*=\frac{e_i}{\sqrt{MSE}}$

σ^{2}

$\sigma^2$

X

$X$

\hat{V} (e_{i}) = M S E (1 - h_{i i})

$\widehat V(e_i)=MSE(1-h_{ii})$

h_{i i}

$h_{ii}$

i

$i$

Standaryzowane reszty, zwane także reszty studentami wewnętrznie , to:

r_{i} = \frac{e_{i}}{\sqrt{M S E (1 - h_{i i})}}

$r_i=\frac{e_i}{\sqrt{MSE(1-h_{ii})}}$

Jednak pojedyncze i nie są niezależne, więc nie może mieć rozkładu . Procedura polega następnie na usunięciu tej obserwacji, dopasowaniu funkcji regresji do pozostałych obserwacji i uzyskaniu nowego $e_i$ $MSE$ $r_i$ $t$ $i$ $n-1$ „s, które mogą być oznaczone przez. Różnica: nosi nazwęusunięte pozostały $\hat y$ $\hat y_{i(i)}$

d_{i} = y_{i} - {\hat{y}}_{i (i)}

$d_i=y_i-\hat y_{i(i)}$ . Równoważne wyrażenie, które nie wymaga ponownego obliczenia, to:

Oznaczając nowe

i

przez

i

, ponieważ nie zależą one od

tej obserwacji, otrzymujemy:

d_{i} = \frac{e_{i}}{1 - h_{i i}}

$d_i=\frac{e_i}{1-h_{ii}}$

X

$X$

M S E

$MSE$

X_{(i)}

$X_{(i)}$

M S E_{(i)}

$MSE_{(i)}$

i

$i$

„S są nazywanestudentyzowane(usunięte)resztylubzewnętrznie studentyzowane pozostałości.

t_{i} = \frac{d_{i}}{\sqrt{\frac{M S E_{(i)}}{1 - h_{i i}}}} = \frac{e_{i}}{\sqrt{M S E_{(i)} (1 - h_{i i})}} \sim t_{n - p - 1}

$t_i=\frac{d_i}{\sqrt{\frac{MSE_{(i)}}{1-h_{ii}}}} =\frac{e_i}{\sqrt{MSE_{(i)}(1-h_{ii})}}\sim t_{n-p-1}$

t_{i}

$t_i$

Patrz Kutner i in., Applied Linear Statistics Models , rozdział 10.

Edycja: Muszę powiedzieć, że odpowiedź rpierce jest idealna. Myślałem, że OP dotyczy standaryzowanych i uczonych reszt (i dzielenie przez odchylenie standardowe populacji w celu uzyskania standaryzowanych reszt wyglądało dla mnie dziwnie), ale się myliłem. Mam nadzieję, że moja odpowiedź może komuś pomóc, nawet jeśli OT.

— Sergio
źródło

2

... i ta odpowiedź jest poprawna w definiowaniu studentizowanych reszt z równania regresji. Nie ma definicji odpowiedniego znormalizowanego reszty. Ramy regresji nie wydają się mieć zastosowania do zadanego pytania. Ale nadal jest to cenny wkład; +1

— russellpierce

2

@ rpierce, masz rację: jak tylko przeczytam „uczenie się”, czytam też „resztki”, ale były tylko w mojej głowie ;-) Przepraszam. Zauważyłem mój niedopatrzenie dopiero po ostatnim kliknięciu.

— Sergio

9

$s$ $\sigma$

Wydaje się jednak, że istnieją pewne różnice terminologiczne między polami (zobacz komentarze do tej odpowiedzi). Dlatego należy zachować ostrożność przy dokonywaniu tych rozróżnień. Co więcej, wyniki studenckie są rzadko nazywane takimi i zwykle postrzegane są wartości „studentizowane” w kontekście regresji. @Sergio podaje w swojej odpowiedzi szczegółowe informacje na temat tego rodzaju studenckich usuniętych resztek.

— russellpierce
źródło

2

Wikipedia dodaje: „Termin ten jest również używany do standaryzacji statystyki wyższego stopnia przez inną statystykę tego samego stopnia: na przykład szacunek trzeciego momentu centralnego zostałby znormalizowany poprzez podzielenie przez sześcian odchylenia standardowego próbki. „

— Nick Stauner

2

Myślę, że bezpieczniej byłoby powiedzieć, że Studiowanie jest dostępną formą standaryzacji, jeśli wariancja populacji jest nieznana. Przybiera to formę technicznego, terminologicznego rozróżnienia, a nie wprowadzające w błąd stwierdzenie o bardziej ogólnym, szeroko używanym terminie.

— Nick Stauner

2

σ

$\sigma$

2

@Nick To brzmi jak dobra rozdzielczość, biorąc pod uwagę, że różne władze szeroko używają „standaryzacji”, ale żaden (AFAIK) nigdy nie używa „ucznia” w tak szerokim znaczeniu.

— whuber

2

@rpierce Druga książka (Freedman, Pisani i Purves) istnieje od około 40 lat, w pięciu (w dużej mierze niezmienionych) wydaniach, i rozpoczęła życie jako tekst kursu wprowadzającego UC Berkeley. Obejmuje prawie wszystkie możliwe dziedziny, nie tylko zdrowie publiczne. Z drugiej strony jedną z jego mocnych stron jest unikanie podkreślania małych, bezsensownych lub zbyt technicznych rozróżnień, więc chociaż jest to ogólnie dobry przewodnik po statystykach, nie można na nim polegać przy rozwiązywaniu tajemnych spraw.

— whuber

3

Bardzo spóźniłem się z odpowiedzią na to pytanie !! Ale nie mogłem znaleźć odpowiedzi w bardzo prostym języku, więc pokorna próba odpowiedzi na to pytanie.

Dlaczego wykonujemy standaryzację? Wyobraź sobie, że masz dwa modele - jeden przewiduje szaleństwo na podstawie ilości czasu poświęconego na badanie statystyk, podczas gdy inne przewiduje log (szaleństwo) wraz z ilością czasu na statystyki.

trudno byłoby zrozumieć, że pozostałości są w różnych jednostkach. Więc je standaryzujemy. (Podobna teoria jak Z-score)

Standaryzowane reszty: - Gdy reszty są podzielone przez oszacowanie odchylenia standardowego. Zasadniczo, jeśli wartość bezwzględna> 3, jest to przyczyną niepokoju.

Używamy tego do badania wartości odstających w modelu.

Studentized Residual: Używamy tego do badania stabilności modelu.

Proces jest prosty. Usuwamy indywidualny przypadek testowy z modelu i znajdujemy nową przewidywaną wartość. Różnicę między nową wartością a pierwotną zaobserwowaną wartością można znormalizować, dzieląc błąd standardowy. ta wartość jest resztą studencką

Więcej informacji na temat odkrywania statyki za pomocą R - http://www.statisticshell.com/html/dsur.html

— NBhoyar
źródło

1

Wikipedia ma dobry przegląd na https://en.wikipedia.org/wiki/Normalization_(statistics) :

$\frac{X - \mu}{\sigma}$

$\frac{X - \overline{X}}{s}$

— asmaier
źródło