Założenia LASSO

W scenariuszu regresji LASSO, w którym

$y= X \beta + \epsilon$ ,

a oszacowania LASSO są podane przez następujący problem optymalizacji

$\min_\beta ||y - X \beta|| + \tau||\beta||_1$

Czy są jakieś założenia dystrybucyjne dotyczące $\epsilon$ ?

W scenariuszu OLS można oczekiwać, że $\epsilon$ są niezależne i zwykle dystrybuowane.

Czy ma sens analiza pozostałości w regresji LASSO?

Wiem, że oszacowanie LASSO można uzyskać jako tryb boczny w ramach niezależnych priory podwójnie wykładniczych dla $\beta_j$ . Ale nie znalazłem żadnej standardowej „fazy sprawdzania założeń”.

Z góry dziękuję (:

— deps_stats
źródło

Nie jestem ekspertem od LASSO, ale oto moje zdanie.

Pierwsza uwaga, że OLS jest dość odporny na naruszenia niezależności i normalności. Następnie sądząc z Twierdzenia 7 i dyskusji nad nim w artykule Robust Regression and Lasso (autor: X. Huan, C. Caramanis i S. Mannor), myślę, że w regresji LASSO bardziej nie interesuje nas dystrybucja $\varepsilon_i$ , ale we wspólnym rozkładzie $(y_i,x_i)$ . Twierdzenie opiera się na założeniu, że $(y_i,x_i)$ jest próbką, więc jest to porównywalne ze zwykłymi założeniami OLS. Ale LASSO jest mniej restrykcyjne, nie ogranicza generowania $y_i$ z modelu liniowego.

Podsumowując, odpowiedź na twoje pierwsze pytanie brzmi: nie. Na nie ma żadnych założeń dystrybucyjnych , wszystkie założenia dystrybucyjne są włączone . Co więcej, są one słabsze, ponieważ w LASSO nic nie jest postulowane co do rozkładu warunkowego . $\varepsilon$ $(y,X)$ $(y|X)$

Powiedziawszy to, odpowiedź na drugie pytanie brzmi: nie. Ponieważ nie odgrywa żadnej roli, nie ma sensu analizować ich tak, jak analizujesz je w OLS (testy normalności, heteroscedastyczność, Durbin-Watson itp.). Powinieneś jednak przeanalizować je w kontekście tego, jak dobre było dopasowanie modelu. $\varepsilon$

— mpiktas
źródło