Jaka jest różnica między wariancją a średnim kwadratowym błędem?

Dziwię się, że nie zadawano tego wcześniej, ale nie mogę znaleźć pytania na stats.stackexchange.

Oto wzór na obliczenie wariancji normalnie rozłożonej próbki:

\frac{\sum (X - \bar{X})^{2}}{n - 1}

$\frac{\sum(X - \bar{X}) ^2}{n-1}$

Oto wzór na obliczenie średniego błędu kwadratu obserwacji w prostej regresji liniowej:

\frac{\sum (y_{i} - {\hat{y}}_{i})^{2}}{n - 2}

$\frac{\sum(y_i - \hat{y}_i) ^2}{n-2}$

Jaka jest różnica między tymi dwiema formułami? Jedyną różnicą, jaką widzę, jest to, że MSE używa . Więc jeśli to jedyna różnica, dlaczego nie nazwać ich zarówno wariancją, ale o różnych stopniach swobody? $n-2$

variance error

— luciano
źródło

Co takiego jest na tej stronie wikipedii , że nie jest jasne?

— TrynnaDoStat,

Wariancja jest średnią kwadratowego odchylenia obserwacji od średniej. Natomiast MSE jest średnią kwadratowych odchyleń prognoz od prawdziwych wartości.

— random_guy

Zarówno „wariancja”, jak i „średni błąd kwadratu” mają wiele formuł i różne zastosowania. Aby wyjaśnić swoje pytanie, czy (a) mógłbyś opisać, do jakiego rodzaju danych stosujesz te pojęcia oraz (b) podać dla nich formuły? (Prawdopodobnie dzięki temu odkryjesz również odpowiedź na swoje pytanie.)

— whuber

Jest bardziej ogólny wzór, które to szczególne przypadki:

, gdzie

oznacza liczbę parametrów oszacowanych uzyskaniem

\frac{\sum_{i} (y_{i} - {\hat{y}}_{i})^{2}}{n - p}

$\frac{\sum_i(y_i-\hat{y}_i)^2}{n-p}$

p

$p$

\hat{y}

$\hat{y}$

— Glen_b -Reinstate Monica

@Glen_b czy możesz podać odniesienie, aby uzyskać więcej informacji na temat tej ogólnej formuły?

— trianta2

Odpowiedzi:

Średni błąd kwadratowy, jak napisałeś dla OLS, ukrywa coś:

\frac{\sum_{ja}^{n} (y_{ja} - {\hat{y}}_{ja})^{2)}}{n - 2)} = \frac{\sum_{ja}^{n} {[y_{ja} - ({\hat{β}}_{0} + {\hat{β}}_{x} x_{ja})]}^{2)}}{n - 2)}

$\frac{\sum_{i}^{n}(y_i - \hat{y}_i) ^2}{n-2} = \frac{\sum_{i}^{n}\left[y_i - \left(\hat{\beta}_{0} + \hat{\beta}_{x}x_{i}\right)\right] ^2}{n-2}$

Zauważ, że licznik sumuje się na funkcji zarówno $y$ jak i $x$ , więc tracisz stopień swobody dla każdej zmiennej, stąd $n-2$ . We wzorze wariancji próbki licznik jest funkcją jednej zmiennej, więc tracisz tylko jeden stopień swobody w mianowniku.

Jednak jesteś na dobrej drodze, aby zauważyć, że są to koncepcyjnie podobne ilości. Wariancja próbki mierzy rozproszenie danych wokół średniej próbki (w jednostkach kwadratowych), podczas gdy MSE mierzy rozproszenie pionowe danych wokół linii regresji próbki (w kwadratowych jednostkach pionowych).

— Alexis
źródło

@amoeba Hej! Dziękuję za uwagę. Czy istnieje oficjalny przewodnik po stylu CV, który zachęcił do tej edycji? Jeśli tak, chcę się tego nauczyć. Jeśli nie, cóż, Glen_b raz słusznie upomniał mnie za kolonizację z moimi osobistymi preferencjami stylowymi i edycję innych Qs i As. Co myślisz? (I pytam o to kolegialnie: Myślę, że twoja edycja coś dodaje. Chcę po prostu lepiej zrozumieć nasze wartości edycyjne.)

— Alexis

Nie sądzę, aby istniał jakikolwiek oficjalny przewodnik w stylu CV, który zawiera tę sugestię, ale w LaTeX istnieją formuły wbudowane (oznaczone jednym znakiem dolara), które są renderowane bezpośrednio w bloku tekstu i wyświetlane formuły (oznaczone dwoma znakami dolara) które są renderowane w osobnej linii. Wyświetlane formuły mają inny układ. Twoja formuła była pierwotnie w osobnej linii, ale oznaczona jednym znakiem dolara; Nie sądzę, żeby to miało sens. Masz jednak rację co do osobistych preferencji, więc możesz wycofać się z przeprosinami. Powodem, dla którego edytowałem, było to, że i tak naprawiałem literówkę w Q.

— ameba mówi Przywróć Monikę

β_{0}

$\beta_0$

n - 1

$n-1$

n - 2

$n-2$

$n$ $n-1$ $n$ $n-1$

$= \beta_{0} + \beta_{1}\times x$ $\beta_{0}$ $\beta_{1}$ $n-2$

— Brajesh Kumar
źródło