Termin wariancji w rozkładzie wariancji odchylenia regresji liniowej

W „Elementach uczenia statystycznego” wyrażenie dekompozycji wariancji odchylenia modelu liniowego podano jako gdzie jest rzeczywistą funkcją docelową, to wariancja błędu losowego w modelu

E r r (x_{0}) = σ_{ϵ}^{2} + E [f (x_{0}) - E \hat{f} (x_{0})]^{2} + | | h (x_{0}) | |^{2} σ_{ϵ}^{2},

$Err(x_0)=\sigma_\epsilon^2+E[f(x_0)-E\hat f(x_0)]^2+||h(x_0)||^2\sigma_\epsilon^2,$

f (x_{0})

$f(x_0)$

σ_{ϵ}^{2}

$\sigma_\epsilon^2$

y = f (x) + ϵ

$y=f(x)+\epsilon$ i

\hat{f} (x)

$\hat f(x)$ jest estymatorem liniowym

f (x)

$f(x)$ .

Problem wariancji niepokoi mnie tutaj, ponieważ równanie implikuje, że wariancja byłaby zerowa, gdyby cele były bezszumowe, to znaczy $\sigma_\epsilon^2=0.$ Ale to nie ma dla mnie sensu, ponieważ nawet przy zerowym hałasie wciąż mogę uzyskać różne estymatory $\hat f(x_0)$ dla różnych zestawów treningowych, co sugeruje, że wariancja jest niezerowa.

Załóżmy na przykład, że funkcja celu jest kwadratowa, a dane treningowe zawierają dwa punkty losowo pobrane z tej kwadratowej; oczywiście dostanę inne dopasowanie liniowe za każdym razem, gdy próbuję losowo dwa punkty z kwadratu-celu. Jak więc wariancja może wynosić zero? $f(x_0)$

Czy ktoś może mi pomóc dowiedzieć się, co jest złego w moim rozumieniu rozkładu wariancji odchylenia wstępnego?

regression linear-model bias-variance-tradeoff

— Abhinav Gupta
źródło

W leczeniu uprzedzeń i wariancji zawsze czai się subtelność i ważne jest, aby zwracać na to szczególną uwagę podczas nauki. Jeśli ponownie przeczytasz kilka pierwszych słów ESL w dziale z tego rozdziału, autorzy wyrażą temu szacunek.

Dyskusje na temat szacowania poziomu błędu mogą być mylące, ponieważ musimy wyjaśnić, które wielkości są stałe, a które losowe

Subtelność jest ustalona, a losowa .

W tradycyjnych metodach regresji liniowej dane $X$ jest traktowany jako ustalony i znany. Jeśli podążysz za argumentami w języku ESL, przekonasz się, że autorzy również przyjmują to założenie. Przy tych założeniach twój przykład nie wchodzi w grę, ponieważ jest to jedyne źródło losowości wynikające z rozkładu warunkowego $y$ dany $X$ . Jeśli to pomoże, możesz zastąpić notację $Err(x_0)$ w myślach z $Err(x_0 \mid X)$ .

Nie oznacza to, że twoje obawy są nieważne, z pewnością prawdą jest, że wybór danych treningowych rzeczywiście wprowadza losowość w naszym algorytmie modelowym, a sumienny praktykujący spróbuje oszacować wpływ tej losowości na swoje wyniki. W rzeczywistości dość wyraźnie widać, że powszechne praktyki ładowania i weryfikacji krzyżowej wyraźnie uwzględniają te źródła losowości w swoich wnioskach.

Aby uzyskać wyraźne wyrażenie matematyczne dla odchylenia i wariancji modelu liniowego w kontekście losowego zestawu danych treningowych, należałoby poczynić pewne założenia dotyczące struktury losowości w $X$ dane. Wymagałoby to pewnych przypuszczeń dotyczących dystrybucji $X$ . Można to zrobić, ale nie stało się częścią głównego nurtu tych pomysłów.

— Matthew Drury
źródło

Wielkie dzięki za wyjaśnienie faktu, że autorzy założyli

X

$X$ do naprawienia, więc oczekiwanie tutaj jest wrt

Y | X

$Y|X$ nie

(X, Y)

$(X,Y)$ . Ale możemy pisać

E = E_{X} E_{Y | X}

$E=E_XE_{Y|X}$ , co oznacza, że będziemy traktować X jako przypadek

V a r (\hat{f} (x_{0})) = E_{X} [| | h (x_{0}) | |^{2} σ_{ϵ}^{2}]

$Var(\hat f(x_0))=E_X[||h(x_0)||^2\sigma_\epsilon^2]$ . Gdyby to było nadal zero

σ_{ϵ}^{2}

$\sigma_\epsilon^2$ wynosi zero. Miałem podobne wątpliwości co do tego równania, moje pochodzenie można znaleźć w tym poście: stats.stackexchange.com/questions/307110/…

— Abhinav Gupta

Sądzę, że autorzy zakładają, że model jest poprawnie określony, tj. Zawiera wszystkie i tylko odpowiednie predyktory z poprawnymi transformacjami. Musiałbym jednak wrócić do książki zamiast polegać na mojej pamięci, żeby to potwierdzić.

— Matthew Drury

Jeśli przez „poprawnie określone” masz na myśli, że funkcja celu jest rzeczywiście liniowa, rozumiem, że zerowy szum oznaczałby zerową stronniczość. Ale okazuje się, że nawet jeśli funkcja celu nie jest liniowa, otrzymujemy dokładnie to samo wyrażenie dla wariancji.

— Abhinav Gupta

To prawda, ale w takim przypadku „poprawnie określone” oznaczałoby, że użyłeś regresji liniowej, aby dopasować model zawierający prawidłowe predyktory. Więc jeśli prawdziwy związek jest kwadratowy, to zakładasz, że twój model zawiera warunki kwadratowe.

— Matthew Drury