Pytania otagowane jako bias-variance-tradeoff

7
Odchylenie i wariancja w walidacji krzyżowej z pominięciem jednego wyjścia a K-krotnie
Jak różnią się różne metody walidacji krzyżowej pod względem wariancji modelu i stronniczości? Moje pytanie jest częściowo motywowane tym wątkiem: optymalna liczba fałdów w krzyżowej walidacji - fold: czy pominięcie CV zawsze jest najlepszym wyborem? KKKK. Odpowiedź sugeruje, że modele wyuczone z krzyżową walidacją typu „pomijaj jeden” mają wyższą wariancję …

2
Optymalna liczba fałdów w walidacji krzyżowej krotności
Pomijając rozważania dotyczące mocy obliczeniowej, czy istnieją jakiekolwiek powody, by sądzić, że zwiększenie liczby fałdów w walidacji krzyżowej prowadzi do lepszego wyboru / walidacji modelu (tj. Że im wyższa liczba fałdów, tym lepiej)? Mówiąc skrajnie, czy wykluczająca się krzyżowa walidacja niekoniecznie prowadzi do lepszych modeli niż krzyżowa walidacja -krotnie?KKK Podstawowe …


2
Pytanie o kompromis wariancji odchylenia
Próbuję zrozumieć kompromis wariancji odchylenia, związek między odchyleniem estymatora a odchyleniem modelu oraz związek między wariancją estymatora a wariancją modelu. Doszedłem do tych wniosków: Mamy tendencję do przewyższania danych, gdy zaniedbujemy odchylenie estymatora, to znaczy, gdy staramy się jedynie zminimalizować odchylenie modelu zaniedbując wariancję modelu (innymi słowy, staramy się jedynie …

2
Dlaczego najlepszy wybór podzbiorów nie jest preferowany w porównaniu z lasso?
Czytam o najlepszym wyborze podzbiorów w książce Elementy statystycznego uczenia się. Jeśli mam 3 predyktory , tworzę podzbiorów:2 3 = 8x1, x2), x3)x1,x2,x3x_1,x_2,x_32)3)= 823=82^3=8 Podzbiór bez predyktorów podzbiór z predyktoremx1x1x_1 podzbiór z predyktoremx2)x2x_2 podzbiór z predyktoremx3)x3x_3 podzbiór z predyktoramix1, x2)x1,x2x_1,x_2 podzbiór z predyktoramix1, x3)x1,x3x_1,x_3 podzbiór z predyktoramix2), x3)x2,x3x_2,x_3 podzbiór z …

1
Termin wariancji w rozkładzie wariancji odchylenia regresji liniowej
W „Elementach uczenia statystycznego” wyrażenie dekompozycji wariancji odchylenia modelu liniowego podano jako gdzie jest rzeczywistą funkcją docelową, to wariancja błędu losowego w modeluErr(x0)=σ2ϵ+E[f(x0)−Ef^(x0)]2+||h(x0)||2σ2ϵ,Err(x0)=σϵ2+E[f(x0)−Ef^(x0)]2+||h(x0)||2σϵ2,Err(x_0)=\sigma_\epsilon^2+E[f(x_0)-E\hat f(x_0)]^2+||h(x_0)||^2\sigma_\epsilon^2,f(x0)f(x0)f(x_0)σ2ϵσϵ2 \sigma_\epsilon^2y=f(x)+ϵy=f(x)+ϵy=f(x)+\epsilon i f^(x)f^(x)\hat f(x) jest estymatorem liniowym f(x)f(x)f(x). Problem wariancji niepokoi mnie tutaj, ponieważ równanie implikuje, że wariancja byłaby zerowa, gdyby cele były bezszumowe, to znaczy …

4
Czy po dopasowaniu modelu liniowego możliwe jest rozłożenie dopasowanych reszt na odchylenie i wariancję?
Chciałbym sklasyfikować punkty danych jako wymagające bardziej złożonego modelu lub niepotrzebujące bardziej złożonego modelu. Moje obecne myślenie polega na dopasowaniu wszystkich danych do prostego modelu liniowego i obserwacji wielkości reszt, aby dokonać tej klasyfikacji. Następnie przeczytałem trochę na temat wkładu błędu i wariancji w błąd i zdałem sobie sprawę, że …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.