Zacznijmy od intuicji.
Nie ma nic złego w używaniu do przewidywania . W rzeczywistości nieużywanie go oznaczałoby, że wyrzucamy cenne informacje. Jednak im bardziej będziemy polegać na informacjach zawartych w aby opracować naszą prognozę, tym bardziej nadmiernie optymistyczny będzie nasz estymator.yjay^jayja
Z jednej strony, jeśli jest po prostu , będziesz mieć doskonałe przewidywanie próbek ( ), ale jesteśmy prawie pewni, że przewidywanie poza próbą będzie złe. W takim przypadku (łatwo to sprawdzić samodzielnie) stopnie swobody będą wynosić .y^jayjaR2)= 1refa(y^) = n
Z drugiej strony, jeśli użyjesz przykładowej średniej : dla wszystkich , wówczas twój stopień swobody wyniesie po prostu 1.yyja=yja^=y¯ja
Sprawdź ten miły przekaz Ryana Tibshiraniego, aby uzyskać więcej informacji na temat tej intuicji
Teraz podobny dowód na drugą odpowiedź, ale z nieco większym wyjaśnieniem
Pamiętaj, że z definicji przeciętny optymizm to:
ω =miy( Erri n-e r r¯¯¯¯¯¯¯)
=miy(1N.∑i = 1N.miY0[ L (Y0ja,fa^(xja)|T.) ] -1N.∑i = 1N.L (yja,fa^(xja) ) )
Teraz użyj kwadratowej funkcji straty i rozwiń kwadraty:
=miy(1N.∑i = 1N.miY0[ (Y0ja-y^ja)2)] -1N.∑i = 1N.(yja-y^ja)2)) )
=1N.∑i = 1N.(miymiY0[ (Y0ja)2)] +miymiY0[y^2)ja] - 2miymiY0[Y0jay^ja] -miy[y2)ja] -miy[y^2)ja] + 2 E[yjay^ja] )
użyj aby zastąpić:miymiY0[ (Y0ja)2)] =miy[y2)ja]
=1N.∑i = 1N.(miy[y2)ja] +miy[yja^2)] - 2miy[yja]miy[y^ja] -miy[y2)ja] -miy[y^2)ja] + 2 E[yjay^ja] )
=2)N.∑i = 1N.( E[yjay^ja] -miy[yja]miy[y^ja] )
Aby zakończyć, zauważ, że , co daje:doo v ( x , w ) = E[ x w ] - E[ x ] E[ w ]
=2)N.∑i = 1N.doo v (yja,y^ja)