Zrozumienie pochodnej kompromisowej wariancji odchylenia

Czytam rozdział dotyczący kompromisu wariancji odchylenia w elementach statystycznego uczenia się i mam wątpliwości co do wzoru na stronie 29. Niech dane pochodzą z modelu takiego, że gdzie jest losowy liczba o oczekiwanej wartości i wariancja . Niech oczekiwana wartość błędu modelu wynosi gdzie jest prognozą naszego ucznia. Zgodnie z książką, błąd to

Y = f (x) + ϵ

$Y = f(x)+\epsilon$

ϵ

$\epsilon$

\hat{ϵ} = E [ϵ] = 0

$\hat{\epsilon} = E[\epsilon]=0$

E [(ϵ - \hat{ϵ})^{2}] = E [ϵ^{2}] = σ^{2}

$E[(\epsilon - \hat\epsilon)^2]=E[\epsilon^2]=\sigma^2$

E [(Y - f_{k} (x))^{2}]

$E[(Y-f_k(x))^2]$

f_{k} (x)

$f_k(x)$

x

$x$

E [(Y - f_{k} (x))^{2}] = σ^{2} + B i a s (f_{k})^{2} + V a r (f_{k} (x)) .

$E[(Y-f_k(x))^2]=\sigma^2+Bias(f_k)^2+Var(f_k(x)).$

Moje pytanie brzmi: dlaczego pojęcie błędu nie jest równe 0? opracowując formułę błędu widzę

E [(Y - f_{k} (x))^{2}] = E [(f (x) + ϵ - f_{k} (x))^{2}] = E [(f (x) - f_{k} (x))^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + E [ϵ^{2}] = V a r (f_{k} (x)) + 2 E [(f (x) - f_{k} (x)) ϵ] + σ^{2}

$E[(Y-f_k(x))^2]=\\ E[(f(x)+\epsilon-f_k(x))^2]=\\ E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]=\\ Var(f_k(x))+2E[(f(x)-f_k(x))\epsilon]+\sigma^2$

ponieważ jest niezależną liczbą losową $\epsilon$ $2E[(f(x)-f_k(x))\epsilon]=2E[(f(x)-f_k(x))]E[\epsilon]=0$

Gdzie się mylę?

— emanuele
źródło

Odpowiedzi:

Nie mylisz się, ale popełniłeś błąd w jednym kroku, ponieważ $E[(f(x)-f_k(x))^2] \ne Var(f_k(x))$ . $E[(f(x)-f_k(x))^2]$ to $\text{MSE}(f_k(x)) = Var(f_k(x)) + \text{Bias}^2(f_k(x))$ .

\begin{aligned} E [(Y - f_{k} (x))^{2}] & = E [(f (x) + ϵ - f_{k} (x))^{2}] \\ = E [(f (x) - f_{k} (x))^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + E [ϵ^{2}] \\ = E [{(f (x) - E (f_{k} (x)) + E (f_{k} (x)) - f_{k} (x))}^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + σ^{2} \\ = V a r (f_{k} (x)) + {Bias}^{2} (f_{k} (x)) + σ^{2} . \end{aligned}

$\begin{align*} E[(Y-f_k(x))^2]& = E[(f(x)+\epsilon-f_k(x))^2] \\ &= E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]\\ &= E\left[\left(f(x) - E(f_k(x)) + E(f_k(x))-f_k(x) \right)^2 \right] + 2E[(f(x)-f_k(x))\epsilon]+\sigma^2 \\ & = Var(f_k(x)) + \text{Bias}^2(f_k(x)) + \sigma^2. \end{align*}$

Uwaga: $E[(f_k(x)-E(f_k(x)))(f(x)-E(f_k(x))] = E[f_k(x)-E(f_k(x))](f(x)-E(f_k(x))) = 0.$

— Greenparker
źródło

W przypadku wyników binarnych, czy istnieje równoważny dowód z entropią krzyżową jako miarą błędu?

— emanuele

Nie działa tak dobrze z odpowiedzią binarną. Zobacz przykład 7.2 w drugim wydaniu „Elementów statystycznego uczenia się”.

— Matthew Drury

czy możesz wyjaśnić, jak idziesz z to ?

E [{(f (x) - E (f_{k} (x)) + E (f_{k} (x)) - f_{k} (x))}^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + σ^{2}

$E\left[\left(f(x) - E(f_k(x)) + E(f_k(x))-f_k(x) \right)^2 \right] + 2E[(f(x)-f_k(x))\epsilon]+\sigma^2$

V a r (f_{k} (x)) + {Bias}^{2} (f_{k} (x)) + σ^{2}

$Var(f_k(x)) + \text{Bias}^2(f_k(x)) + \sigma^2$

— Antoine,

Jeszcze kilka kroków rozkładu odchylenia - odchylenie

Rzeczywiście, pełna pochodna rzadko jest podawana w podręcznikach, ponieważ wiąże się z wieloma mało inspirującymi algebrami. Oto pełniejsze wyprowadzenie za pomocą notacji z książki „Elementy uczenia statystycznego” na stronie 223

Jeśli założymy, że i i to możemy wyprowadzić wyrażenie dla oczekiwanego błędu prognozy dopasowania regresji na wejściu wykorzystaniem kwadratowej utraty błędów $Y = f(X) + \epsilon$ $E[\epsilon] = 0$ $Var(\epsilon) = \sigma^2_\epsilon$ $\hat f(X)$ $X = x_0$

E r r (x_{0}) = E [(Y - \hat{f} (x_{0}))^{2} | X = x_{0}]

$Err(x_0) = E[ (Y - \hat f(x_0) )^2 | X = x_0]$

Dla uproszczenia notacyjnego niech , i przypomnij sobie, że i $\hat f(x_0) = \hat f$ $f(x_0) = f$ $E[f] = f$ $E[Y] = f$

\begin{aligned} E [(Y - \hat{f})^{2}] & = E [(Y - f + f - \hat{f})^{2}] \\ = E [(y - f)^{2}] + E [(f - \hat{f})^{2}] + 2 E [(f - \hat{f}) (y - f)] \\ = E [(f + ϵ - f)^{2}] + E [(f - \hat{f})^{2}] + 2 E [f Y - f^{2} - \hat{f} Y + \hat{f} f] \\ = E [ϵ^{2}] + E [(f - \hat{f})^{2}] + 2 (f^{2} - f^{2} - f E [\hat{f}] + f E [\hat{f}]) \\ = σ_{ϵ}^{2} + E [(f - \hat{f})^{2}] + 0 \end{aligned}

$\begin{aligned} E[ (Y - \hat f)^2 ] &= E[(Y - f + f - \hat f )^2] \\ & = E[(y - f)^2] + E[(f - \hat f)^2] + 2 E[(f - \hat f)(y - f)] \\ & = E[(f + \epsilon - f)^2] + E[(f - \hat f)^2] + 2E[fY - f^2 - \hat f Y + \hat f f] \\ & = E[\epsilon^2] + E[(f - \hat f)^2] + 2( f^2 - f^2 - f E[\hat f] + f E[\hat f] ) \\ & = \sigma^2_\epsilon + E[(f - \hat f)^2] + 0 \end{aligned}$

Dla terminu możemy użyć podobnej sztuczki jak powyżej, dodając i odejmując aby uzyskać $E[(f - \hat f)^2]$ $E[\hat f]$

\begin{aligned} E [(f - \hat{f})^{2}] & = E [(f + E [\hat{f}] - E [\hat{f}] - \hat{f})^{2}] \\ = E {[f - E [\hat{f}]]}^{2} + E {[\hat{f} - E [\hat{f}]]}^{2} \\ = {[f - E [\hat{f}]]}^{2} + E {[\hat{f} - E [\hat{f}]]}^{2} \\ = B i a s^{2} [\hat{f}] + V a r [\hat{f}] \end{aligned}

$\begin{aligned} E[(f - \hat f)^2] & = E[(f + E[\hat f] - E[\hat f] - \hat f)^2] \\ & = E \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2 \\ & = \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2 \\ & = Bias^2[\hat f] + Var[\hat f] \end{aligned}$

Składając to razem

E [(Y - \hat{f})^{2}] = σ_{ϵ}^{2} + B i a s^{2} [\hat{f}] + V a r [\hat{f}]

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + Bias^2[\hat f] + Var[\hat f]$

Kilka komentarzy na temat tego, dlaczego $E[\hat f Y] = f E[\hat f]$

Zaczerpnięte z Alecos Papadopoulos tutaj

Przypomnijmy, że jest predyktorem, który zbudowaliśmy na podstawie punktów danych , abyśmy mogli napisać aby to zapamiętać. $\hat f$ $m$ $\{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)}) \}$ $\hat f = \hat f_m$

Z drugiej strony jest prognozą, którą tworzymy dla nowego punktu danych za pomocą modelu zbudowanego na punktach danych powyżej. Tak więc średni błąd kwadratu można zapisać jako $Y$ $(x^{(m+1)},y^{(m+1)})$ $m$

mi [{\hat{fa}}_{m} (x^{(m + 1)}) - y^{(m + 1)}]^{2)}

$E[\hat f_m(x^{(m+1)}) - y^{(m+1)}]^2$

Rozszerzanie równania z poprzedniej sekcji

mi [{\hat{fa}}_{m} Y] = mi [{\hat{fa}}_{m} (fa + ϵ)] = mi [{\hat{fa}}_{m} fa + {\hat{fa}}_{m} ϵ] = mi [{\hat{fa}}_{m} fa] + mi [{\hat{fa}}_{m} ϵ]

$E[\hat f_m Y]=E[\hat f_m (f+ \epsilon)]=E[\hat f_m f+\hat f_m \epsilon]=E[\hat f_m f]+E[\hat f_m \epsilon]$

Ostatnia część równania może być postrzegana jako

mi [{\hat{fa}}_{m} (x^{(m + 1)}) \cdot ϵ^{(m + 1)}] = 0

$E[\hat f_m(x^{(m+1)}) \cdot \epsilon^{(m+1)}] = 0$

Ponieważ przyjmujemy następujące założenia dotyczące punktu : $x^{(m+1)}$

To był nie wykorzystane przy konstruowaniu $\hat f_m$
Jest niezależny od wszystkich innych obserwacji $\{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)}) \}$
Jest niezależny od $\epsilon^{(m+1)}$

Inne źródła z pełnymi pochodnymi

— Xavier Bourret Sicotte
źródło

Dlaczego ? Nie sądzę, i są niezależne, ponieważ jest zasadniczo zbudowane z użyciem .

E [\hat{f} Y] = f E [\hat{f}]

$E[\hat{f}Y]=f E[\hat{f}]$

Y

$Y$

\hat{f}

$\hat{f}$

\hat{f}

$\hat{f}$

Y

$Y$

— Felipe Pérez,

Ale pytanie jest zasadniczo takie samo, dlaczego ? Losowość wynika z błędu więc nie rozumiem, dlaczego i byłyby niezależne, a zatem .

E [\hat{f} ϵ] = 0

$E[\hat{f}\epsilon]=0$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

E (\hat{f} ϵ) = 0

$\mathbb{E}(\hat{f}\epsilon)=0$

— Felipe Pérez,

Z twojej precyzji wynika, że perspektywa próby i próby jest kluczowa. To jest tak? Jeśli pracujemy tylko w próbce, a następnie zobacz jako resztkowe, odchylenie wariancji odchylenia zniknie?

ϵ

$\epsilon$

— markowitz

@ FelipePérez, o ile rozumiem, przypadkowość pochodzi z podziału testu na pociąg (które punkty znalazły się w zestawie treningowym i dały jako wyszkolony predyktor). Innymi słowy, wariancja pochodzi ze wszystkich możliwych podzbiorów danego ustalonego zestawu danych, który możemy przyjąć jako zbiór szkoleniowy. Ponieważ zestaw danych jest stały, losowość nie pochodzi z a zatem i są niezależne.

\hat{f}

$\hat{f}$

\hat{f}

$\hat{f}$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

— Alberto Santini,

Zrozumienie pochodnej kompromisowej wariancji odchylenia

Jeszcze kilka kroków rozkładu odchylenia - odchylenie

Kilka komentarzy na temat tego, dlaczegoE[f^Y]=fE[f^]E[f^Y]=fE[f^]E[\hat f Y] = f E[\hat f]

Inne źródła z pełnymi pochodnymi

Kilka komentarzy na temat tego, dlaczego $E[\hat f Y] = f E[\hat f]$