W którym ustawieniu spodziewałbyś się, że model znaleziony przez LARS najbardziej różni się od modelu znalezionego przez wyczerpujące wyszukiwanie?

Trochę więcej informacji; Przypuszczam, że

wiesz z góry, ile zmiennych wybrać i że ustawiasz karę złożoności w procedurze LARS, tak aby mieć dokładnie tyle zmiennych o współczynnikach innych niż 0,
koszty obliczeń nie stanowią problemu (całkowita liczba zmiennych jest mała, powiedzmy 50),
że wszystkie zmienne (y, x) są ciągłe.

W jakim ustawieniu model LARS (tj. Dopasowanie OLS tych zmiennych mających niezerowe współczynniki w dopasowaniu LARS) najbardziej różni się od modelu o tej samej liczbie współczynników, ale znaleziony w drodze wyczerpującego wyszukiwania (a la regsubsets ())?

Edycja: Używam 50 zmiennych i 250 obserwacji z rzeczywistymi współczynnikami wyciągniętymi ze standardowego gaussa, z wyjątkiem 10 zmiennych mających „rzeczywiste” współczynniki 0 (i wszystkie cechy są ze sobą silnie skorelowane). Te ustawienia oczywiście nie są dobre, ponieważ różnice między dwoma zestawami wybranych zmiennych są niewielkie. To jest naprawdę pytanie o to, jaki typ konfiguracji danych należy symulować, aby uzyskać jak najwięcej różnic.

regression model-selection

— użytkownik603
źródło

Odpowiedzi:

Oto opis algorytmu LARS: http://www-stat.stanford.edu/~tibs/lasso/simple.html To trochę ignoruje korelację między regresorami, więc zaryzykowałbym przypuszczenie, że może to przegapić dopasowanie w przypadku wielokoliniowości.

— Alex
źródło

to właśnie motywuje moje pytanie. Symulowałem ustawienia z 50 zmiennymi, w których największa wartość vif przekracza 30 i nadal widzę bardzo niewiele różnic (na przykład pod względem R ^ 2 wybranych modeli) między tymi dwoma podejściami.

— user603

Sam znalazłem różne odpowiedzi dla stepAIC i Larsa i wyobrażam sobie, że moim problemem należy się zająć grupą LASSO - nie chodzi tu o VIF całej macierzy, ale o szereg skupisk zmiennych skorelowanych.

— Alex

Ciekawe ... jak generujesz takie dane? (tj. z klastrami zmiennych skorelowanych)

— user603

Połącz kilka niezależnych grup z korelacją w ich obrębie. Ja sam mam kilka takich samych pytań dotyczących wielu marek - ludzie lubią wybraną przez siebie markę i nie lubią innych.

— Alex

Im więcej funkcji masz w stosunku do liczby próbek, tym bardziej będziesz się przejmować bardziej wyczerpującą metodą wyszukiwania niż w przypadku LARS. Kara stosowana w LARS narzuca strukturę zagnieżdżoną coraz bardziej złożonych modeli, indeksowanych jednym parametrem regularyzacji, więc „stopień swobody” wyboru funkcji w LARS jest dość niski. W przypadku wyszukiwania exaustive istnieje efektywnie jeden (binarny) stopień swobody na cechę, co oznacza, że wyszukiwanie exaustive jest w stanie lepiej wykorzystać losową zmienność w kryterium wyboru cechy ze względu na losowe próbkowanie danych. W rezultacie model egzekwowania wyszukiwania może zostać poważnie dostosowany do kryterium wyboru cech, ponieważ „klasa hipotez” jest większa.

— Dikran Torbacz
źródło

Twoja odpowiedź wydaje się nie mieć związku z moim pytaniem. Żeby było jasne: jestem naprawdę zainteresowany tworzeniem sytuacji, w których podzbiór zmiennych wybranych jako aktywne przez LARS byłby najbardziej różny od tych wybranych przez wyczerpujące wyszukiwanie, przy czym mierzy się to, powiedzmy, różnicą w R ^ 2 między modelem LARS oraz wyczerpujący model wyszukiwania z tą samą liczbą aktywnych zmiennych . Czy potrafisz wymyślić jakiś przeciwnik, w którym różnica byłaby duża? Czy możesz ponownie sformułować swoją odpowiedź w tych warunkach?

— user603

Moja odpowiedź jest bezpośrednio związana z twoim pytaniem. Stopień nadmiernego dopasowania nie zależy tylko od liczby cech, ale od wartości wag. W związku z tym możliwe jest nadmierne dopasowanie bez korzystania z większej liczby funkcji. LARS nakłada karę na wielkość odważników, więc nie wybiera funkcji, które zmniejszają tylko kwadratową stratę kosztem odważników o dużych rozmiarach, dlatego jest mniej podatny na nadmierne dopasowanie. Rozbudowane metody wyszukiwania są w zasadzie receptą na nadmierne dopasowanie, więc otrzymasz bardzo różne rozwiązania w sytuacjach, w których może wystąpić nadmierne dopasowanie.

— Dikran Marsupial

Ok, rozumiem, o co ci chodzi: pochodzi z czegoś, o czym wspomniałem w moim pierwotnym pytaniu (i mam nadzieję, że wyjaśniłem to teraz). Naprawdę porównuję tutaj jabłko do jabłek (tj. Wybrane modele), lub innymi słowy, dopasowanie (R ^ 2 z) OLS za pomocą zmiennych wybranych przez LARS i dopasowanie (R ^ 2 z) OLS za pomocą tych zmienne wybrane przez wyczerpujące wyszukiwanie. Nie używam bezpośrednio współczynników LARS ....

— user603

To nie jest ortogonalny, jeden model raczej nie będzie lepszy od drugiego bez różnicy. W sytuacjach, w których prawdopodobne jest nadmierne dopasowanie, model oparty na wyszukanym wyszukiwaniu może być niestabilny, tj. Jeśli zbierzesz 500 różnych próbek, prawdopodobnie uzyskasz inny zestaw funkcji. Z drugiej strony LARS prawdopodobnie będzie bardziej stabilny. To, czy 50 cech i 500 próbek może doprowadzić do nadmiernego dopasowania, zależy od charakteru zestawu danych, ale z pewnością jest to możliwe. Wyczerpujące wyszukiwanie może wybrać funkcje wyjaśniające zmienność charakterystyczną dla tej próbki; LARS mniej.

— Dikran Torbacz

Pomocne może być wyjaśnienie, dlaczego chcesz to zrobić. Podejrzewam, że należy spojrzeć na wielkości wag prawdziwego modelu, a także na rozkład danych. Modele regresji karnej (LASSO, LARS, sieć Elaris, regresja kalenicy) mają pierwszeństwo w oczekiwanym rozkładzie ciężarów, więc jeśli masz zestaw danych, w którym jest to nieprawidłowe, może to być dobre miejsce na rozpoczęcie.

— Dikran Torbacz