Czy średni błąd kwadratu służy do oceny względnej przewagi jednego estymatora nad drugim?

13

Załóżmy, że mamy dwa estymatory i dla niektórych parametrów . Aby ustalić, który estymator jest „lepszy”, czy patrzymy na MSE (średni błąd kwadratu)? Innymi słowy, patrzymy na gdzie jest błędem estymatora, a jest wariantem estymatora? Którykolwiek większy MSE jest gorszym estymatorem? $\alpha_1$ $\alpha_2$ $x$

M S E = β^{2} + σ^{2}

$MSE = \beta^2+ \sigma^2$

β

$\beta$

σ^{2}

$\sigma^2$

estimation mse

— Damien
źródło

10

Jeśli dwie konkurujące estymatory i , czy mówi, że jest lepszy estymator zależy wyłącznie od twojej definicji "Najlepsza". Na przykład, jeśli porównujesz bezstronne estymatorów i „lepiej” znaczy ma mniejszą wariancję następnie, tak, oznaczałoby to, że jest lepsza. $\hat \theta_1$ $\hat \theta_2$

M S E ({\hat{θ}}_{1}) < M S E ({\hat{θ}}_{2})

${\rm MSE}(\hat \theta_1) < {\rm MSE}(\hat \theta_2)$

{\hat{θ}}_{1}

$\hat \theta_1$

{\hat{θ}}_{1}

$\hat \theta_1$

M S E

$\rm MSE$ jest popularnym kryterium ze względu na związek z najmniejszymi kwadratami i prawdopodobieństwem logarytmicznym Gaussa, ale podobnie jak wiele kryteriów statystycznych, należy ostrzec przed użyciem

ślepo jako miary jakości estymatora bez zwracania uwagi na zastosowanie.

M S E

$\rm MSE$

Istnieją pewne sytuacje, w których wybór estymatora w celu zminimalizowania może nie być szczególnie rozsądnym rozwiązaniem. Przychodzą mi na myśl dwa scenariusze: ${\rm MSE}$

Jeśli w zestawie danych występują bardzo duże wartości odstające, mogą one drastycznie wpłynąć na MSE, a zatem takie wartości odstające mogą wpływać na estymator, który minimalizuje MSE. W takich sytuacjach fakt, że estymator minimalizuje MSE, nie mówi zbyt wiele, ponieważ jeśli usuniesz wartości odstające, możesz uzyskać zupełnie inną ocenę. W tym sensie MSE nie jest „odporny” na wartości odstające. W kontekście regresji fakt ten motywował Huber M-Estimator (który omawiam w tej odpowiedzi), który minimalizuje inną funkcję kryterium (czyli połączenie błędu kwadratu i błędu absolutnego), gdy występują błędy o długich ogonach .
Jeśli szacujesz ograniczony parametr, porównywanie może nie być właściwe, ponieważ w takim przypadku inaczej karze się i zaniżanie. Załóżmy na przykład, że szacujesz wariancję, . Następnie, jeśli świadomie nie docenisz ilości, twoje może wynosić co najwyżej , podczas gdy przeszacowanie może wytworzyć znacznie przekraczające , być może nawet o nieograniczoną kwotę. $\rm MSE$ $\sigma^2$ $\rm MSE$ $\sigma^4$ $\rm MSE$ $\sigma^4$

Aby wyjaśnić te wady, podam konkretny przykład, kiedy z powodu tych problemów może nie być odpowiednią miarą jakości estymatora. $\rm MSE$

$X_1, ..., X_n$ $t$ $\nu>2$ $\nu/(\nu-2)$

{\hat{θ}}_{1} : t h mi u n b ja za s mi re s za m p l mi v za r ja za n do mi

$\hat \theta_{1}: {\rm the \ unbiased \ sample \ variance}$

{\hat{θ}}_{2)} = 0, r mi sol za r re l mi s s o fa t h mi re za t za

$\hat \theta_{2} = 0,{\rm \ regardless \ of \ the \ data}$

M S E ({\hat{θ}}_{2}) = \frac{ν^{2}}{(ν - 2)^{2}}

$\rm MSE(\hat \theta_{2}) = \frac{\nu^2}{(\nu-2)^2}$

M. S. mi ({\hat{θ}}_{1}) = {\begin{cases} \infty & gdyby ν \leq 4 \\ \frac{ν^{2)}}{(ν - 2))^{2)}} (\frac{2)}{n - 1} + \frac{6}{n (ν - 4)}) & gdyby ν > 4 . \end{cases}

${\rm MSE}(\hat \theta_{1}) = \begin{cases} \infty &\mbox{if } \nu \leq 4 \\ \frac{\nu^2}{(\nu-2)^2} \left( \frac{2}{n-1}+\frac{6}{n(\nu-4)} \right) & \mbox{if } \nu>4 . \end{cases}$

t

$t$ $\rm MSE$ $\nu < 4$

(\frac{2}{n - 1} + \frac{6}{n (ν - 4)}) > 1

$\left( \frac{2}{n-1}+\frac{6}{n(\nu-4)} \right) > 1$

t

$t$

{\hat{θ}}_{2}

$\hat \theta_{2}$

M S E

$\rm MSE$

{\hat{θ}}_{1}

$\hat \theta_1$

$\rm MSE$ $\rm MSE$ $\hat \theta$

S. (\hat{θ}) = \frac{\hat{θ}}{ν / (ν - 2))} - 1 - \log (\frac{\hat{θ}}{ν / (ν - 2))})

$S(\hat \theta) = \frac{ \hat \theta}{\nu/(\nu-2)} - 1 - \log \left( \frac{ \hat \theta}{\nu/(\nu-2)} \right)$

$S(\hat \theta_1)=\infty$

— Makro
źródło

(+1) Miła dyskusja. Aby być uczciwym, należy prawdopodobnie zauważyć, że podobne argumenty można przedstawiać za i przeciw innym kryteriom (innym funkcjom strat).

— MånsT

2

Zwykle ocenia się estymatory, przyglądając się ich funkcjom ryzyka, które wykreślają oczekiwaną stratę w stosunku do parametrów. Tutaj, ustalając parametry, mogłeś stworzyć mylącą analizę. W końcu zawsze jest tak, że głupi (stały, nieświadomy danych) estymator może generować bardzo niską oczekiwaną stratę: po prostu ustaw go na odpowiedni parametr! To mnie zastanawia, co naprawdę pokazała tutaj symulacja.

— whuber

@ Whuber, zmodyfikowałem tę odpowiedź, aby podać przykład analitycznie, co może być bardziej jasne. Zaproponowałem także alternatywną funkcję straty, która może być bardziej odpowiednia.

— Makro

ν

$\nu$

2

$L(\alpha_i) = (\alpha_i - \alpha)^2$

— JMS
źródło

2

$f(x) = x^2$

$f(x) = |x|$

MSE jest prawdopodobnie dobrym wyborem, jeśli warunki błędu są zwykle dystrybuowane. Jeśli mają grubsze ogony, preferowany jest bardziej solidny wybór, taki jak wartość bezwzględna.

— aprokopiw
źródło

0

W Wniosku statystycznym Case & Berger, wydanie drugie, strona 332 stwierdza, że MSE karze równo za przeszacowanie i niedoszacowanie, co jest dobre w przypadku lokalizacji. Jednak w przypadku skali 0 jest naturalną dolną granicą, więc problem estymacji nie jest symetryczny. Zastosowanie MSE w tym przypadku zwykle wybacza niedoszacowanie.

Możesz sprawdzić, który estymator spełnia właściwości UMVUE, co oznacza użycie dolnej granicy Cramer-Rao. Str. 341.

— Tu.2
źródło