Co to jest pozostały błąd standardowy?


35

Podczas uruchamiania modelu regresji wielokrotnej w R jednym z wyjść jest resztkowy błąd standardowy wynoszący 0,0589 przy 95161 stopniach swobody. Wiem, że 95.161 stopni swobody wynika z różnicy między liczbą obserwacji w mojej próbce a liczbą zmiennych w moim modelu. Jaki jest pozostały błąd standardowy?



Szybkie pytanie: czy „resztkowy błąd standardowy” jest taki sam jak „resztkowy odchylenie standardowe”? Gelman i Hill (s. 41, 2007) wydają się używać ich zamiennie.
JetLag

Odpowiedzi:


26

Dopasowany model regresji wykorzystuje parametry do generowania prognoz oszacowania punktowego, które są średnimi obserwowanymi odpowiedziami, jeśli powielisz badanie z tymi samymi wartościami nieskończoną liczbę razy (i gdy model liniowy jest prawdziwy). Różnica między tymi przewidywanymi wartościami a wartościami zastosowanymi do dopasowania modelu nazywa się „resztkami”, które podczas replikacji procesu gromadzenia danych mają właściwości zmiennych losowych o wartości 0.X

Zaobserwowane pozostałości są następnie wykorzystywane do późniejszego oszacowania zmienności tych wartości i do oszacowania rozkładu próbkowania parametrów. Gdy rezydualny błąd standardowy wynosi dokładnie 0, model idealnie pasuje do danych (prawdopodobnie z powodu przeszacowania). Jeśli nie można wykazać, że rezydualny błąd standardowy różni się znacząco od zmienności bezwarunkowej odpowiedzi, wówczas niewiele jest dowodów na to, że model liniowy ma jakąkolwiek zdolność predykcyjną.


3
Być może na to wcześniej odpowiedziano. Sprawdź, czy to pytanie zawiera odpowiedzi, których potrzebujesz. [Interpretacja wyniku Rm lm ()] [1] [1]: stats.stackexchange.com/questions/5135/…
doug.numbers

26

Powiedzmy, że mamy następującą tabelę ANOVA (dostosowaną z example(aov)polecenia R ):

          Df Sum Sq Mean Sq F value Pr(>F)
Model      1   37.0   37.00   0.483  0.525
Residuals  4  306.3   76.57               

Jeśli podzielisz sumę kwadratów z dowolnego źródła zmienności (modelu lub reszt) przez odpowiednie stopnie swobody, otrzymasz średni kwadrat. W szczególności dla pozostałości:

306.34=76.57576.57

A zatem 76,57 jest średnim kwadratem reszt, tj. Ilością zmian resztkowych (po zastosowaniu modelu) zmiennej zmiennej odpowiedzi.

76.57


1
Głosowałem za odpowiedzią od @AdamO, ponieważ jako osoba, która najczęściej stosuje regresję, odpowiedź ta była dla mnie najprostsza. Doceniam jednak tę odpowiedź, ponieważ ilustruje ona notacyjną / konceptualną / metodologiczną zależność między ANOVA a regresją liniową.
svannoy

12

Y=β0+β1X+ϵ
ϵX

β0β1ϵϵ

RSE wyjaśniono dość wyraźnie w „Wprowadzenie do uczenia statystycznego”.


2
ϵRSE=RSS(n2)

1
Dla każdego, kto czyta epub ISL, możesz znaleźć „stronę 66” z ctrl-f „szczątkowym błędem standardowym”. (Pliki Epub nie mają prawdziwych numerów stron).
user2426679
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.