Błąd nastawienia optymistycznego - szacunki błędu prognozowania

9

Książka Elements of Statistics Learning (dostępna w PDF online) omawia stronniczość optymisim (7.21, strona 229). Stwierdza, że nastawienie optymistyczne stanowi różnicę między błędem treningu a błędem w próbie (błąd zaobserwowany, jeśli próbkujemy nowe wartości wyników w każdym z oryginalnych punktów szkolenia) (poniżej).

wprowadź opis zdjęcia tutaj

Następnie stwierdza, że to uprzedzenie optymistyczne ( ) jest równe kowariancji naszych oszacowanych wartości y i rzeczywistych wartości y (wzór poniżej). Mam problem ze zrozumieniem, dlaczego ta formuła wskazuje na uprzedzenie optymistyczne; naiwnie pomyślałbym, że silna kowariancja między rzeczywistym a przewidywanym opisuje jedynie dokładność, a nie optymizm. Daj mi znać, czy ktoś może pomóc w wyprowadzeniu wzoru lub podzielić się intuicją. $\omega$ $y$ $y$

wprowadź opis zdjęcia tutaj

error bias validation

— użytkownik1885116
źródło

Bardzo pomocny, dziękuję! Myślę, że jedno z równań ma niewielką literówkę i powinno być:

= \frac{1}{N} \sum_{i = 1}^{N} (E_{y} [y_{i}^{2}] + E_{y} [{\hat{y}}_{i}^{2}] - 2 E_{y} [y_{i}] E_{y} [{\hat{y}}_{i}] - E_{y} [y_{i}^{2}] - E_{y} [{\hat{y}}_{i}^{2}] + 2 E [y_{i} {\hat{y}}_{i}])

$= {1 \over N}\sum_{i=1}^N \left( E_y[y_i^2] + E_y[\hat{y}_i^2] -2 E_y [y_i] E_y[ \hat{y}_i] - E_y[y_i^2] - E_y[\hat{y}_i^2] + 2E[y_i \hat{y}_i] \right)$

— Sleepster

8

Zacznijmy od intuicji.

Nie ma nic złego w używaniu do przewidywania . W rzeczywistości nieużywanie go oznaczałoby, że wyrzucamy cenne informacje. Jednak im bardziej będziemy polegać na informacjach zawartych w aby opracować naszą prognozę, tym bardziej nadmiernie optymistyczny będzie nasz estymator. $y_i$ $\hat{y}_i$ $y_i$

Z jednej strony, jeśli jest po prostu , będziesz mieć doskonałe przewidywanie próbek ( ), ale jesteśmy prawie pewni, że przewidywanie poza próbą będzie złe. W takim przypadku (łatwo to sprawdzić samodzielnie) stopnie swobody będą wynosić . $\hat{y}_i$ $y_i$ $R^2 = 1$ $df(\hat{y}) = n$

Z drugiej strony, jeśli użyjesz przykładowej średniej : dla wszystkich , wówczas twój stopień swobody wyniesie po prostu 1. $y$ $y_i = \hat{y_i} = \bar{y}$ $i$

Sprawdź ten miły przekaz Ryana Tibshiraniego, aby uzyskać więcej informacji na temat tej intuicji

Teraz podobny dowód na drugą odpowiedź, ale z nieco większym wyjaśnieniem

Pamiętaj, że z definicji przeciętny optymizm to:

ω = {mi}_{y} (mi r r_{ja n} - \bar{mi r r})

$\omega = E_y (Err_{in} - \overline{err})$

= {mi}_{y} (\frac{1}{N.} \sum_{ja = 1}^{N.} {mi}_{Y^{0}} [L. (Y_{ja}^{0}, \hat{fa} (x_{ja}) | T.)] - \frac{1}{N.} \sum_{ja = 1}^{N.} L. (y_{ja}, \hat{fa} (x_{ja})))

$= E_y \left( {1 \over N} \sum_{i=1}^N E_{Y^0} \left[ L(Y_i^0, \hat{f} (x_i) \; |\; T) \right] - {1 \over N} \sum_{i=1}^N L(y_i, \hat{f} (x_i) ) \right)$

Teraz użyj kwadratowej funkcji straty i rozwiń kwadraty:

= {mi}_{y} (\frac{1}{N.} \sum_{ja = 1}^{N.} {mi}_{Y^{0}} [(Y_{ja}^{0} - {\hat{y}}_{ja})^{2)}] - \frac{1}{N.} \sum_{ja = 1}^{N.} (y_{ja} - {\hat{y}}_{ja})^{2)}))

$= E_y \left( {1 \over N} \sum_{i=1}^N E_{Y^0} \left[ (Y_i^0 - \hat{y}_i)^2 \right] - {1 \over N} \sum_{i=1}^N (y_i - \hat{y}_i)^2 ) \right)$

= \frac{1}{N.} \sum_{ja = 1}^{N.} ({mi}_{y} {mi}_{Y^{0}} [(Y_{ja}^{0})^{2)}] + {mi}_{y} {mi}_{Y^{0}} [{\hat{y}}_{ja}^{2)}] - 2) {mi}_{y} {mi}_{Y^{0}} [Y_{ja}^{0} {\hat{y}}_{ja}] - {mi}_{y} [y_{ja}^{2)}] - {mi}_{y} [{\hat{y}}_{ja}^{2)}] + 2) mi [y_{ja} {\hat{y}}_{ja}])

$= {1 \over N} \sum_{i=1}^N\left( E_y E_{Y^0}[(Y_i^0)^2] + E_y E_{Y^0} [\hat{y}_i^2] -2 E_y E_{Y^0} [Y_i^0 \hat{y}_i] - E_y[y_i^2] - E_y[\hat{y}_i^2] + 2E[y_i \hat{y}_i] \right)$

użyj aby zastąpić: $E_y E_{Y^0}[(Y_i^0)^2] = E_y[y_i^2]$

= \frac{1}{N.} \sum_{ja = 1}^{N.} ({mi}_{y} [y_{ja}^{2)}] + {mi}_{y} [{\hat{y_{ja}}}^{2)}] - 2) {mi}_{y} [y_{ja}] {mi}_{y} [{\hat{y}}_{ja}] - {mi}_{y} [y_{ja}^{2)}] - {mi}_{y} [{\hat{y}}_{ja}^{2)}] + 2) mi [y_{ja} {\hat{y}}_{ja}])

$= {1 \over N}\sum_{i=1}^N \left( E_y[y_i^2] + E_y[\hat{y_i}^2] -2 E_y [y_i] E_y[ \hat{y}_i] - E_y[y_i^2] - E_y[\hat{y}_i^2] + 2E[y_i \hat{y}_i] \right)$

= \frac{2)}{N.} \sum_{ja = 1}^{N.} (mi [y_{ja} {\hat{y}}_{ja}] - {mi}_{y} [y_{ja}] {mi}_{y} [{\hat{y}}_{ja}])

$= {2 \over N} \sum_{i=1}^N \left( E[y_i \hat{y}_i] - E_y [y_i] E_y[ \hat{y}_i] \right)$

Aby zakończyć, zauważ, że , co daje: $Cov(x, w) = E[xw] - E[x]E[w]$

= \frac{2)}{N.} \sum_{ja = 1}^{N.} do o v (y_{ja}, {\hat{y}}_{ja})

$= {2 \over N} \sum_{i=1}^N Cov(y_i, \hat{y}_i)$

— cd98
źródło

5

Muszę zaznaczyć, że nazywa się „Ryan Tibshirani” Rob Tibshirani

— Robert Tibshirani

2

Witamy na naszej stronie, Rob - przywilej jest mieć cię tutaj, choćby po to, aby naprawić błąd! Jeśli zobaczysz więcej, daj nam znać: i oczywiście bylibyśmy zadowoleni z odpowiedzi, które Ty (lub uczniowie) chcielibyście opublikować. Twoja praca jest szeroko wymieniona na tej stronie, szczególnie ESL i wprowadzenie do Bootstrap.

— whuber

Umysł wyjaśniając ? Ponadto, jest ?

E_{y} E_{Y^{0}} [(Y_{i}^{0})^{2}] = E_{y} [y_{i}^{2}]

$E_y E_{Y^0}[(Y_i^0)^2] = E_y[y_i^2]$

2 E_{y} E_{Y^{0}} [Y_{i}^{0} {\hat{y}}_{i}] = 2 E_{y} [E_{Y^{0}} [Y_{i}^{0}] E_{Y^{0}} [{\hat{y}}_{i}]] = 2 E_{y} [y_{i}] E_{y} [{\hat{y}}_{i}]

$2 E_y E_{Y^0} [Y_i^0 \hat{y}_i]=2 E_y [E_{Y^0} [Y_i^0]E_{Y^0}[\hat{y}_i]]=2 E_y [y_i] E_y[ \hat{y}_i]$

— Shookie

7

Niech zatem $\hat{f}(x_i)=\hat{y}_i$

\begin{aligned} ω & = {mi}_{y} [o p] \\ = {mi}_{y} [mi r r_{ja n} - \bar{mi r r}] \\ = {mi}_{y} [mi r r_{ja n}] - {mi}_{y} [\bar{mi r r}] \\ = {mi}_{y} [\frac{1}{N.} \sum_{ja = 1}^{N.} {mi}_{Y^{0}} [L. (Y_{ja}^{0}, \hat{fa} (x_{ja}))] - {mi}_{y} [\frac{1}{N.} \sum_{ja = 1}^{N.} L. (y_{ja}, \hat{fa} (x_{ja}))] \\ = \frac{1}{N.} \sum_{ja = 1}^{N.} {mi}_{y} {mi}_{Y^{0}} [(Y_{ja}^{0} - {\hat{y}}_{ja})^{2)}] - {mi}_{y} [(y_{ja} - {\hat{y}}_{ja})^{2)}] \\ = \frac{1}{N.} \sum_{ja = 1}^{N.} {mi}_{y} {mi}_{Y^{0}} [(Y_{ja}^{0})^{2)}] + {mi}_{y} {mi}_{Y^{0}} [{\hat{y}}_{ja}^{2)}] - 2) {mi}_{y} {mi}_{Y^{0}} [Y_{ja}^{0} {\hat{y}}_{ja}] - {mi}_{y} [y_{ja}^{2)}] - {mi}_{y} [{\hat{y}}_{ja}^{2)}] + 2) {mi}_{y} [y_{ja} {\hat{y}}_{ja}] \\ = \frac{1}{N.} \sum_{ja = 1}^{N.} {mi}_{y} [y_{ja}^{2)}] + {mi}_{y} [{\hat{y}}_{ja}^{2)}] - 2) {mi}_{y} [y_{ja}] {mi}_{y} [{\hat{y}}_{ja}] - {mi}_{y} [y_{ja}^{2)}] - {mi}_{y} [{\hat{y}}_{ja}^{2)}] + 2) {mi}_{y} [y_{ja} {\hat{y}}_{ja}] \\ = \frac{2)}{N.} \sum_{ja = 1}^{N.} {mi}_{y} [y_{ja} {\hat{y}}_{ja}] - {mi}_{y} [y_{ja}] {mi}_{y} [{\hat{y}}_{ja}] \\ = \frac{2)}{N.} \sum_{ja = 1}^{N.} {mi}_{y} [y_{ja} {\hat{y}}_{ja} - y_{ja} {mi}_{y} [{\hat{y}}_{ja}] - {mi}_{y} [y_{ja}] {\hat{y}}_{ja} + {mi}_{y} [y_{ja}] {mi}_{y} [{\hat{y}}_{ja}]] \\ = \frac{2)}{N.} \sum_{ja = 1}^{N.} {mi}_{y} [({\hat{y}}_{ja} - {mi}_{y} [{\hat{y}}_{ja}]) ([y_{ja} - {mi}_{y} [y_{ja}])] \\ = \frac{2)}{N.} \sum_{ja = 1}^{N.} do o v ({\hat{y}}_{ja}, y_{ja}) \end{aligned}

$\begin{aligned} \omega &= E_\boldsymbol{y}[op]\\ &=E_\boldsymbol{y}[Err_{in}-\overline{err}]\\ &=E_\boldsymbol{y}[Err_{in}]-E_\boldsymbol{y}[\overline{err}]\\ &=E_\boldsymbol{y}[\frac{1}{N}\sum_{i=1}^{N}E_{Y^0}[L(Y_i^0,\hat{f}(x_i))]-E_\boldsymbol{y}[\frac{1}{N}\sum_{i=1}^{N}L(y_i,\hat{f}(x_i))]\\ &=\frac{1}{N}\sum_{i=1}^{N}E_\boldsymbol{y}E_{Y^0}[(Y_i^0-\hat{y}_i)^2]-E_\boldsymbol{y}[(y_i-\hat{y}_i)^2]\\ &=\frac{1}{N}\sum_{i=1}^{N}E_\boldsymbol{y}E_{Y^0}[({Y_i^0})^2]+E_\boldsymbol{y}E_{Y^0}[{\hat{y}_i}^2]-2E_\boldsymbol{y}E_{Y^0}[Y_i^0\hat{y}_i]-E_\boldsymbol{y}[y_i^2]-E_\boldsymbol{y}[\hat{y}_i^2]+2E_\boldsymbol{y}[y_i\hat{y}_i]\\ &=\frac{1}{N}\sum_{i=1}^{N}E_\boldsymbol{y}[y_i^2]+E_\boldsymbol{y}[\hat{y}_i^2]-2E_\boldsymbol{y}[y_i]E_\boldsymbol{y}[\hat{y}_i]-E_\boldsymbol{y}[y_i^2]-E_\boldsymbol{y}[\hat{y}_i^2]+2E_\boldsymbol{y}[y_i\hat{y}_i]\\ &=\frac{2}{N}\sum_{i=1}^{N}E_\boldsymbol{y}[y_i\hat{y}_i]-E_\boldsymbol{y}[y_i]E_\boldsymbol{y}[\hat{y}_i]\\ &=\frac{2}{N}\sum_{i=1}^{N}E_\boldsymbol{y}[y_i\hat{y}_i-y_iE_\boldsymbol{y}[\hat{y}_i]-E_\boldsymbol{y}[y_i]\hat{y}_i+E_\boldsymbol{y}[y_i]E_\boldsymbol{y}[\hat{y}_i]]\\ &=\frac{2}{N}\sum_{i=1}^{N}E_\boldsymbol{y}[(\hat{y}_i-E_\boldsymbol{y}[\hat{y}_i])([y_i-E_\boldsymbol{y}[y_i])]\\ &=\frac{2}{N}\sum_{i=1}^{N}cov(\hat{y}_i,y_i) \end{aligned}$ CO BYŁO DO OKAZANIA

— Maciej Lazarewicz
źródło

1

Cztery ostatnie kroki można uprościć za pomocą tej właściwości kowariancji:

E [x w] - E [x] E [w] = C o v (x, w)

$E[x w ] - E[x] E[w] = Cov(x, w)$

— cd98