LASSO zależność pomiędzy

Rozumiem, że regresja LASSO jest taka, że współczynniki regresji są wybrane w celu rozwiązania problemu minimalizacji:

min_{β} ‖ y - X β ‖_{2)}^{2)} s . t . ‖ β ‖_{1} \leq t

$\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t$

W praktyce odbywa się to za pomocą mnożnika Lagrange'a, co powoduje problem do rozwiązania

min_{β} ‖ y - X β ‖_{2)}^{2)} + λ ‖ β ‖_{1}

$\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1$

Jaki jest związek między $\lambda$ i $t$ ? Wikipedia niepoprawnie stwierdza, że jest „zależna od danych”.

Dlaczego mnie to obchodzi? Po pierwsze dla intelektualnej ciekawości. Jestem jednak zaniepokojony konsekwencjami wyboru $\lambda$ przez cross-validation.

W szczególności, jeśli przeprowadzam n-krotną walidację krzyżową, dopasowuję n różnych modeli do n różnych partycji moich danych treningowych. Następnie porównuję dokładność każdego z modeli na nieużywanych danych dla danego $\lambda$ . Ale to samo $\lambda$ implikuje inne ograniczenie ( $t$ ) dla różnych podzbiorów danych (tj. $t=f(\lambda)$ jest „zależne od danych”).

Czy naprawdę nie chcę rozwiązać problemu weryfikacji krzyżowej, aby znaleźć wartość $t$ która zapewnia najlepszy kompromis w zakresie dokładności odchylenia?

Mogę z grubsza zorientować się w wielkości tego efektu w praktyce, obliczając dla każdego podziału weryfikacji krzyżowej i i patrząc na wynikowy rozkład. W niektórych przypadkach domniemane ograniczenie ( ) może się znacznie różnić cicho w moich podzbiorach weryfikacji krzyżowej. Gdzie przez istotnie mam na myśli współczynnik zmienności . $\|\beta\|_1$ $\lambda$ $t$ $t>>0$

— ConstantAmateur
źródło

Upvoting, aby anulować niewyjaśnione głosowanie negatywne. Pytanie to jest poza moją wiedzą specjalistyczną, ale wydaje się być dość sformułowane.

— mkt - Przywróć Monikę

To standardowe rozwiązanie regresji kalenicy :

β = {(X^{'} X + λ I)}^{- 1} X^{'} y

$\beta = \left( X'X + \lambda I \right) ^{-1} X'y$

Wiemy również, że , więc to musi być prawda $\| \beta \| = t$

‖ {(X^{'} X + λ I)}^{- 1} X^{'} y ‖ = t

$\| \left( X'X + \lambda I \right) ^{-1} X'y \| = t$ .

co nie jest łatwe do rozwiązania dla . $\lambda$

Najlepszym rozwiązaniem jest po prostu robienie tego, co robisz: obliczanie na tej samej podpróbce danych dla wielu wartości . $t$ $\lambda$

— Shadowtalker
źródło