W „Elementach uczenia statystycznego” wyrażenie dekompozycji wariancji odchylenia modelu liniowego podano jako gdzie jest rzeczywistą funkcją docelową, to wariancja błędu losowego w modelu
Problem wariancji niepokoi mnie tutaj, ponieważ równanie implikuje, że wariancja byłaby zerowa, gdyby cele były bezszumowe, to znaczy Ale to nie ma dla mnie sensu, ponieważ nawet przy zerowym hałasie wciąż mogę uzyskać różne estymatory dla różnych zestawów treningowych, co sugeruje, że wariancja jest niezerowa.
Załóżmy na przykład, że funkcja celu jest kwadratowa, a dane treningowe zawierają dwa punkty losowo pobrane z tej kwadratowej; oczywiście dostanę inne dopasowanie liniowe za każdym razem, gdy próbuję losowo dwa punkty z kwadratu-celu. Jak więc wariancja może wynosić zero?
Czy ktoś może mi pomóc dowiedzieć się, co jest złego w moim rozumieniu rozkładu wariancji odchylenia wstępnego?