Czy wzrosnąć, gdy

11

Jeśli $\beta^*=\mathrm{arg\,min}_{\beta} \|y-X\beta\|^2_2+\lambda\|\beta\|_1$ , może $\|\beta^*\|_2$ wzrosnąć, gdy $\lambda$ wzrasta?

Myślę, że to jest możliwe. Chociaż $\|\beta^*\|_1$ nie rośnie, gdy $\lambda$ rośnie (mój dowód ), $\|\beta^*\|_2$ może wzrosnąć. Poniższy rysunek pokazuje możliwość. Kiedy $\lambda$ rośnie, jeśli $\beta^*$ przemieszcza się (liniowo) od $P$ do $Q$ , wtedy $\|\beta^*\|_2$ rośnie, podczas gdy $\|\beta^*\|_1$ maleje. Ale nie wiem, jak skonstruować konkretny przykład (tj. Skonstruować $X$ i $y$ ), aby profil $\beta^*$ zademonstrował to zachowanie. Jakieś pomysły? Dziękuję Ci.

wprowadź opis zdjęcia tutaj

lasso

— ziyuang
źródło

10

Odpowiedź brzmi: tak, i masz tam dowód graficzny w . $\ell_2$

Sprawdź definicję równoważności norm wektorowych. Przekonasz się, że gdzie jest wymiarem wektora . Dlatego istnieje pewna przestrzeń do normy porównaniu do normy .

‖ x ‖_{2} \leq ‖ x ‖_{1} \leq \sqrt{n} ‖ x ‖_{2},

$\|x\|_2 \leq \|x\|_1 \leq \sqrt{n}\|x\|_2,$

n

$n$

x

$x$

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

W rzeczywistości problem, który chcesz rozwiązać, można określić jako:

Znajdź takie, że a jednocześnie $d$

‖ x + d ‖_{2} > ‖ x ‖_{2}

$\|x + d\|_2 > \|x\|_2$

‖ x + d ‖_{1} < ‖ x ‖_{1} .

$\|x + d\|_1 < \|x\|_1.$

pierwszą nierówność, rozwiń i zobacz, że i że przyjmując, że i , otrzymujemy z drugiej nierówności, którą musimy mieć Każde które spełni te ograniczenia, zwiększy normę jednocześnie zmniejszając normę .

2 \sum_{i} x_{i} d_{i} > - \sum_{i} d_{i}^{2}

$2\sum_i x_id_i > -\sum_i d_i^2$

x_{i} \geq 0

$x_i\geq0$

x_{i} + d_{i} \geq 0

$x_i+d_i\geq0$

\sum_{i} d_{i} < 0.

$\sum_i d_i < 0.$

d

$d$

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

W twoim przykładzie, , , i a $d\approx[-0.4, 0.3]^T$ $x:=P\approx[0.5, 0.6]^T$

\sum_{i} d_{i} \approx - 0.1 < 0,

$\sum_i d_i\approx-0.1<0,$

2 \sum_{i} P_{i} d_{i} \approx - 0.04 > - 0.25 \approx - \sum_{i} d_{i}^{2} .

$2\sum_i P_id_i\approx-0.04 > -0.25 \approx -\sum_i d_i^2.$

— Tommy L.
źródło

Ale jaki to ma związek z konstrukcją i ?

X

$X$

y

$y$

— ziyuang

3

Dzięki za odpowiedź @ TommyL, ale jego odpowiedź nie dotyczy bezpośrednio konstrukcji i . Jakoś sam to „rozwiązuję”. Po pierwsze, gdy wzrośnie, nie wzrośnie, gdy każde zmniejszy się monotonicznie. Dzieje się tak, gdy jest ortonormalny, w którym mamy $X$ $y$ $\lambda$ $\|\beta^*\|_2$ $\beta^*_i$ $X$

β_{i}^{*} = s i g n (β_{i}^{L S}) (β_{i}^{L S} - λ)_{+}

$\beta^*_i=\mathrm{sign}(\beta_i^{\mathrm{LS}})(\beta_i^{\mathrm{LS}}-\lambda)_+$

Geometrycznie w tej sytuacji porusza się prostopadle do konturu normy , więc nie może wzrosnąć. $\beta^*$ $\ell_1$ $\|\beta^*\|_2$

W rzeczywistości Hastie i in. wspomniane w artykule Forward regresja stagewise i monotoniczny lasso , niezbędny i wystarczający warunek monotoniczności ścieżek profilu:

wprowadź opis zdjęcia tutaj

W części 6 artykułu skonstruowali sztuczny zestaw danych oparty na cząstkowo-liniowych funkcjach bazowych, co narusza powyższy warunek, pokazując niemonotoniczność. Ale jeśli mamy szczęście, możemy również utworzyć losowy zestaw danych demonstrujący podobne zachowanie, ale w prostszy sposób. Oto mój kod R:

library(glmnet)
set.seed(0)
N <- 10
p <- 15
x1 <- rnorm(N)
X <- mat.or.vec(N, p)
X[, 1] <- x1
for (i in 2:p) {X[, i] <- x1 + rnorm(N, sd=0.2)}
beta <- rnorm(p, sd=10)
y <- X %*% beta + rnorm(N, sd=0.01)
model <- glmnet(X, y, family="gaussian", alpha=1, intercept=FALSE)

Celowo pozwoliłem , aby kolumny wysoce skorelowane (daleko od przypadku ortonormalnego), a prawda ma zarówno duże pozytywne, jak i negatywne wpisy. Oto profil (nic dziwnego, że aktywowanych jest tylko 5 zmiennych): $X$ $\beta$ $\beta^*$

wprowadź opis zdjęcia tutaj

oraz związek między i : $\lambda$ $\|\beta^*\|_2$

wprowadź opis zdjęcia tutaj

Tak więc widzimy, że dla pewnego przedziału , zwiększa się wzrasta. $\lambda$ $\|\beta^*\|_2$ $\lambda$

— ziyuang
źródło