Dla regresji Lasso załóżmy że najlepsze rozwiązanie (na przykład minimalny błąd testowania) wybiera k funkcji, więc \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ prawo) .k β l y y o = ( β l e s o 1 , β l y y O 2 , . . . , β l
Wiemy, że to tendencyjne oszacowanie , więc dlaczego nadal traktujemy jako ostateczne rozwiązanie, zamiast bardziej „rozsądnego” , gdzie to oszacowanie LS z modelu częściowego . ( oznacza kolumny odpowiadające wybranym cechom).
W skrócie, dlaczego używamy Lasso zarówno do wyboru funkcji, jak i do szacowania parametrów, a nie tylko do wyboru zmiennych (i pozostawiając oszacowanie wybranych funkcji OLS)?
(Ponadto, co to znaczy, że „Lasso może wybrać najwyżej funkcji”? to wielkość próbki).