Trochę więcej informacji; Przypuszczam, że
- wiesz z góry, ile zmiennych wybrać i że ustawiasz karę złożoności w procedurze LARS, tak aby mieć dokładnie tyle zmiennych o współczynnikach innych niż 0,
- koszty obliczeń nie stanowią problemu (całkowita liczba zmiennych jest mała, powiedzmy 50),
- że wszystkie zmienne (y, x) są ciągłe.
W jakim ustawieniu model LARS (tj. Dopasowanie OLS tych zmiennych mających niezerowe współczynniki w dopasowaniu LARS) najbardziej różni się od modelu o tej samej liczbie współczynników, ale znaleziony w drodze wyczerpującego wyszukiwania (a la regsubsets ())?
Edycja: Używam 50 zmiennych i 250 obserwacji z rzeczywistymi współczynnikami wyciągniętymi ze standardowego gaussa, z wyjątkiem 10 zmiennych mających „rzeczywiste” współczynniki 0 (i wszystkie cechy są ze sobą silnie skorelowane). Te ustawienia oczywiście nie są dobre, ponieważ różnice między dwoma zestawami wybranych zmiennych są niewielkie. To jest naprawdę pytanie o to, jaki typ konfiguracji danych należy symulować, aby uzyskać jak najwięcej różnic.