Jeszcze kilka kroków rozkładu odchylenia - odchylenie
Rzeczywiście, pełna pochodna rzadko jest podawana w podręcznikach, ponieważ wiąże się z wieloma mało inspirującymi algebrami. Oto pełniejsze wyprowadzenie za pomocą notacji z książki „Elementy uczenia statystycznego” na stronie 223
Jeśli założymy, że i i to możemy wyprowadzić wyrażenie dla oczekiwanego błędu prognozy dopasowania regresji na wejściu wykorzystaniem kwadratowej utraty błędówY=f(X)+ϵE[ϵ]=0Var(ϵ)=σ2ϵf ( X ) X = x 0f^(X)X=x0
Err(x0)=E[(Y−f^(x0))2|X=x0]
Dla uproszczenia notacyjnego niech , i przypomnij sobie, że if^(x0)=f^f(x0)=fE[f]=fE[Y]=f
E[(Y−f^)2]=E[(Y−f+f−f^)2]=E[(y−f)2]+E[(f−f^)2]+2E[(f−f^)(y−f)]=E[(f+ϵ−f)2]+E[(f−f^)2]+2E[fY−f2−f^Y+f^f]=E[ϵ2]+E[(f−f^)2]+2(f2−f2−fE[f^]+fE[f^])=σ2ϵ+E[(f−f^)2]+0
Dla terminu możemy użyć podobnej sztuczki jak powyżej, dodając i odejmując aby uzyskaćE[(f−f^)2]E[f^]
E[(f−f^)2]=E[(f+E[f^]−E[f^]−f^)2]=E[f−E[f^]]2+E[f^−E[f^]]2=[f−E[f^]]2+E[f^−E[f^]]2=Bias2[f^]+Var[f^]
Składając to razem
E[(Y−f^)2]=σ2ϵ+Bias2[f^]+Var[f^]
Kilka komentarzy na temat tego, dlaczegoE[f^Y]=fE[f^]
Zaczerpnięte z Alecos Papadopoulos tutaj
Przypomnijmy, że jest predyktorem, który zbudowaliśmy na podstawie punktów danych , abyśmy mogli napisać aby to zapamiętać.f^m{ ( x( 1 ), y( 1 )) , . . . , ( x( m ), y( m )) }fa^= f^m
Z drugiej strony jest prognozą, którą tworzymy dla nowego punktu danych za pomocą modelu zbudowanego na punktach danych powyżej. Tak więc średni błąd kwadratu można zapisać jakoY( x( m + 1 ), y( m + 1 ))m
mi[ f^m( x( m + 1 )) - y( m + 1 )]2)
Rozszerzanie równania z poprzedniej sekcji
mi[ f^mY] = E[ f^m( f+ ϵ ) ] = E[ f^mfa+ f^mϵ ] = E[ f^mfa] + E[ f^mϵ ]
Ostatnia część równania może być postrzegana jako
mi[ f^m( x( m + 1 )) ⋅ ϵ( m + 1 )] = 0
Ponieważ przyjmujemy następujące założenia dotyczące punktu :x( m + 1 )
- To był nie wykorzystane przy konstruowaniufa^m
- Jest niezależny od wszystkich innych obserwacji{ ( x( 1 ), y( 1 )) , . . . , ( x( m ), y( m )) }
- Jest niezależny odϵ( m + 1 )
Inne źródła z pełnymi pochodnymi