Na stronie 223 we wstępie do nauki statystycznej autorzy podsumowują różnice między regresją grzbietu a lasso. Podają przykład (ryc. 6.9), kiedy „lasso ma tendencję do przewyższania regresji grzbietu pod względem stronniczości, wariancji i MSE”.
Rozumiem, dlaczego lasso może być pożądane: skutkuje rzadkimi rozwiązaniami, ponieważ zmniejsza wiele współczynników do 0, co skutkuje prostymi i możliwymi do interpretacji modelami. Ale nie rozumiem, w jaki sposób może on przewyższyć grzbiet, gdy interesujące są tylko prognozy (tj. W jaki sposób uzyskuje się znacznie niższy MSE w przykładzie?).
Z grzbietem, jeśli wiele predyktorów prawie nie ma wpływu na odpowiedź (z kilkoma predyktorami mającymi duży efekt), czy ich współczynniki nie zostaną po prostu zmniejszone do niewielkiej liczby bardzo bliskiej zeru ... w wyniku czego powstanie coś bardzo podobnego do lasso ? Dlaczego więc ostateczny model miałby gorsze wyniki niż lasso?