Związek między sformułowaniami Lasso

To pytanie może być głupie, ale zauważyłem, że istnieją dwie różne formuły regresji Lasso . Wiemy, że problemem Lasso jest zminimalizowanie celu polegającego na stracie kwadratowej powiększonej o karę -1, wyrażoną w następujący sposób: $L$

min_{β} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}

$\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \;$

Ale często widziałem estymator Lasso jako

{\hat{β}}_{n} (λ) = \arg min_{β} {\frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}}

$\hat{\beta}_n(\lambda) = \displaystyle\arg \min_{\beta} \{\frac {1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \}$

Moje pytanie brzmi, czy są równoważne? Gdzie pojawia się termin $\frac {1}{2n}$ ? Związki między tymi dwoma sformułowaniami nie są dla mnie oczywiste.

[Aktualizacja] Chyba inne pytanie, które powinienem zadać, to:

Dlaczego jest drugi preparat? Jaka jest zaleta, teoretycznie lub obliczeniowo, sformułowania problemu w ten sposób?

lasso

— Aaron Zeng
źródło

Jeśli ustawisz w drugim preparacie równym razy w pierwszym preparacie, wówczas funkcja celu w drugim preparacie jest równa razy funkcja celu w pierwszym preparacie. W efekcie zmieniłeś jedynie jednostki miary straty. Jak twoim zdaniem zmieniłoby to optymalne wartości ?

λ

$\lambda$

1 / (2 n)

$1/(2n)$

λ

$\lambda$

1 / (2 n)

$1/(2n)$

β

$\beta$

— whuber

Dzięki, @Whuber. Ma to sens dla mnie. Dlaczego więc istnieje ten drugi preparat? Jaka jest zaleta, teoretycznie lub obliczeniowo, sformułowania problemu w ten sposób?

— Aaron Zeng

Są one rzeczywiście równoważne, ponieważ zawsze można przeskalować (patrz także komentarz @ Whuber). Z teoretycznego punktu widzenia jest to kwestia wygody, ale o ile wiem, nie jest to konieczne. Z perspektywy obliczeniowej uważam, że dość irytujące, więc zwykle używam pierwszego sformułowania, jeśli projektuję algorytm, który wykorzystuje regularyzację. $\lambda$ $1/(2n)$

Trochę historii: Kiedy zacząłem uczyć się o metodach karanych, denerwowałem się noszeniem wszędzie w mojej pracy, więc wolałem to zignorować - nawet uprościło niektóre moje obliczenia. W tym czasie moja praca była głównie obliczeniowa. Niedawno robiłem prace teoretyczne i znalazłem niezbędny (nawet w porównaniu, powiedzmy, ). $1/(2n)$ $1/(2n)$ $1/n$

Więcej szczegółów: Kiedy próbujesz przeanalizować zachowanie Lasso jako funkcję wielkości próby , często masz do czynienia z sumami zmiennych losowych iid, a w praktyce wygodniej jest analizować takie sumy po normalizacji przez - -myśl prawo wielkich liczb / centralne twierdzenie graniczne (lub jeśli chcesz uzyskać fantazję, koncentrację miary i empiryczną teorię procesu). Jeśli nie masz warunku przed stratą, ostatecznie kończysz przeskalowywanie czegoś pod koniec analizy, więc ogólnie lepiej jest mieć to na początek. jest wygodne, ponieważ odwołuje się kilka irytujących czynników $n$ $n$ $1/n$ $1/2$ $2$ w analizie (np. gdy weźmiesz pochodną kwadratu terminu straty).

Innym sposobem myślenia o tym jest to, że robiąc teorię, jesteśmy ogólnie zainteresowani zachowaniem rozwiązań w miarę wzrostu - to znaczy nie jest jakąś stałą wielkością. W praktyce, gdy uruchamiamy Lasso na jakimś stałym zestawie danych, jest rzeczywiście ustalone z perspektywy algorytmu / obliczeń. Tak więc dodatkowy czynnik normalizujący z przodu nie jest aż tak pomocny. $n$ $n$ $n$

Może to wydawać się irytujące dla wygody, ale po spędzeniu wystarczająco dużo czasu na manipulowaniu tego rodzaju nierównościami, nauczyłem się kochać . $1/(2n)$

— JohnA
źródło

Kiedy uświadomisz sobie, do czego służą te normalizujące stałe, zaczniesz je widzieć wszędzie .

— Matthew Drury,

Dziękuję za to wyjaśnienie. Z dumą czytamy Twoje wspaniałe doświadczenia w tej dziedzinie. Jeszcze raz dziękuję

— Christina,