To już dość stare pytanie, ale wydaje mi się, że w międzyczasie większość odpowiedzi tutaj jest dość przestarzała (a ta, która jest sprawdzona pod kątem poprawnej odpowiedzi, jest po prostu zła imho).
Po pierwsze, jeśli chodzi o uzyskanie dobrych wyników prognozowania, nie jest powszechnie prawdą, że LASSO jest zawsze lepszy niż krokowy. Artykuł „Rozszerzone porównania najlepszego wyboru podzbiorów, selekcji krokowej do przodu i Lasso” autorstwa Hastie i in. (2017) zawiera obszerne porównanie kroku do przodu, LASSO i niektórych wariantów LASSO, takich jak zrelaksowany LASSO, a także najlepszy podzbiór, i pokaż, że krok po kroku jest czasem lepszy niż LASSO. Jednak wariant LASSO - zrelaksowany LASSO - był tym, który zapewnił najwyższą dokładność prognozowania modelu w najszerszym zakresie okoliczności. Wniosek, który jest najlepszy, zależy jednak w dużej mierze od tego, co uważasz za najlepsze, np. Od tego, czy byłaby to najwyższa dokładność przewidywania, czy wybór najmniejszej liczby fałszywie dodatnich zmiennych.
Istnieje jednak całe zoo rzadkich metod uczenia się, z których większość jest lepsza niż LASSO. Np. Istnieje zrelaksowana LASSO Meinhausena , adaptacyjna regresja karana LASSO i SCAD i MCP zaimplementowana w ncvreg
pakiecie, które mają mniejszą tendencję niż standardowe LASSO i dlatego są preferowane. Ponadto, jeśli interesuje Cię absolutnie rzadkie rozwiązanie o najlepszej wydajności predykcji, to regresja karna L0 (czyli najlepszy podzbiór, tj. Oparty na penalizacji liczby niezerowych współczynników w przeciwieństwie do sumy wartości bezwzględnej współczynników w LASSO) jest lepszy niż LASSO, patrz np. l0ara
pakiet zbliżony do LM karanych L0 za pomocą iteracyjnej adaptacyjnej procedury grzbietu, który, w przeciwieństwie do LASSO, działa również bardzo dobrze z wysoce zmiennymi współliniowymi, a L0Learn
pakiet , który może pasować do modeli regresji penalizowanej L0 przy użyciu opadania współrzędnych , potencjalnie w połączeniu z karą L2 w celu uregulowania kolinearności.
Wracając do pierwotnego pytania: dlaczego nie użyć LASSO do wyboru zmiennych? :
(1) ponieważ współczynniki będą bardzo tendencyjne, co zostanie poprawione w łagodnej regresji karnej LASSO, MCP i SCAD, i rozwiązane całkowicie w regresji karnej L0 (która ma pełną właściwość wyroczni, tj. Może wykryć zarówno zmienne przyczynowe, jak i powtórzyć współczynniki obiektywne, także dla przypadków p> n)
(2) ponieważ ma tendencję do wytwarzania znacznie większej liczby fałszywie dodatnich wyników niż regresja karana L0 (w moich testach l0ara
najlepiej wtedy, tj. Iteracyjny grzbiet adaptacyjny, po którym następuje L0Learn
)
(3) ponieważ nie radzi sobie dobrze ze zmiennymi współliniowymi (w zasadzie losowo wybrałby jedną ze zmiennych współliniowych) - iteracyjny adaptacyjny grzbiet / l0ara
i kary L0L2 L0Learn
są znacznie lepsze w radzeniu sobie z tym.
Oczywiście, ogólnie rzecz biorąc, nadal będziesz musiał używać weryfikacji krzyżowej, aby dostroić parametry regulacyjne, aby uzyskać optymalną wydajność przewidywania, ale to nie jest problem. Możesz nawet wnioskować na podstawie swoich wymiarów na podstawie parametrów i obliczyć 95% przedziały ufności dla swoich współczynników, jeśli chcesz za pomocą nieparametrycznego ładowania początkowego (nawet biorąc pod uwagę niepewność wyboru optymalnej regularyzacji, jeśli wykonasz krzyżową weryfikację również dla każdego zestawu danych rozruchowego , ale wtedy staje się to dość powolne).
Obliczeniowo LASSO nie jest wolniejsze w dopasowywaniu niż podejście stopniowe btw, z pewnością nie, jeśli używa się wysoce zoptymalizowanego kodu, który używa ciepłych startów w celu optymalizacji regularyzacji LASSO (możesz porównać siebie za pomocą fs
polecenia lasso
krokowego do przodu i dla LASSO w bestsubset
pakiecie). Fakt, że podejścia stopniowe są nadal popularne, prawdopodobnie ma związek z błędnym przekonaniem wielu osób, że można po prostu zachować swój ostateczny model i zgłosić związane z nim wartości p - co w rzeczywistości nie jest słuszne, ponieważ tak nie jest wziąć pod uwagę niepewność wprowadzoną przez wybór modelu, co skutkuje zbyt optymistycznymi wartościami p.
Mam nadzieję że to pomoże?