Zarówno LASSO, jak i wybór modelu do przodu / do tyłu mają zarówno zalety, jak i ograniczenia. Nie można sformułować żadnych daleko idących zaleceń. Aby to rozwiązać, zawsze można zbadać symulację.
pnp ≫ n
Przeregulowaniu można zaradzić za pomocą weryfikacji krzyżowej próbki podzielonej (CV) do oceny modelu. Ponieważ tego nie opisałeś, zakładam, że tego nie zrobiłeś. W przeciwieństwie do stopniowego wyboru modelu, LASSO wykorzystuje parametr strojenia, aby ukarać liczbę parametrów w modelu. Możesz naprawić parametr strojenia lub użyć skomplikowanego procesu iteracyjnego, aby wybrać tę wartość. Domyślnie LASSO robi to drugie. Odbywa się to za pomocą CV, aby zminimalizować MSE prognozowania. Nie znam żadnej implementacji stopniowego wyboru modelu, który wykorzystuje tak wyrafinowane techniki, nawet BIC jako kryterium ucierpiałoby na wewnętrznej tendencyjności walidacji. Z mojego konta, to automatycznie daje LASSO dźwignię w stosunku do „gotowego” stopniowego wyboru modelu.
Wreszcie stopniowy wybór modelu może mieć różne kryteria włączenia / wyłączenia różnych regresorów. Jeśli użyjesz wartości p dla testu Walda określonych parametrów modelu lub wynikowego modelu R ^ 2, nie zrobisz tego dobrze, głównie z powodu wewnętrznej tendencyjności walidacji (ponownie, można to naprawić za pomocą CV). Zaskakujące jest dla mnie to, że takie modele wciąż są wdrażane. AIC lub BIC są znacznie lepszymi kryteriami wyboru modelu.
Z każdą metodą wiąże się wiele problemów. Problemy wyboru modelu krokowego są znacznie lepiej rozumiane i znacznie gorsze niż problemy LASSO. Główny problem, jaki widzę w twoim pytaniu, polega na tym, że używasz narzędzi wyboru funkcji do oceny prognozy . Są to odrębne zadania. LASSO jest lepszy do wyboru funkcji lub rzadkiego wyboru modelu. Regresja grzbietu może dać lepsze przewidywanie, ponieważ wykorzystuje wszystkie zmienne.
p ≫ n
p ≫ n