Normalizacja

Istnieje wiele metod przeprowadzania regularyzacji - na przykład regularyzacja oparta na normach , i . Według Friedmana Hastie & Tibsharani , najlepszy regulizator zależy od problemu: mianowicie charakteru prawdziwej funkcji celu, konkretnej zastosowanej podstawy, stosunku sygnału do szumu i wielkości próbki. $L_0$ $L_1$ $L_2$

Czy istnieją badania empiryczne porównujące metody i skuteczność różnych metod regularyzacji?

r regression machine-learning regularization

— Ram Ahluwalia
źródło

Wszyscy trzej autorzy są w Stanford. Dlaczego nie zapytać bezpośrednio jednego z nich? Rob Tibshirani jest bardzo przystępny, podobnie jak Jerry Friedman. Friedman przeprowadził wiele oryginalnych badań regresji regularnej. Więc może być lepszym wyborem.

— Michael R. Chernick

Oczywiście nie mogę powiedzieć, że dałem mu odpowiedź. Ale skierowanie go do najlepszej osoby, aby odpowiedział na pytanie, wydaje się czymś więcej niż zwykłym komentarzem, który zwykle próbuje wyjaśnić. Często zastanawiam się, dlaczego ludzie zawsze zadają tutaj pytania, skoro mogą przejść bezpośrednio do źródła. Jestem prawie pewien, że Friedman może na to odpowiedzieć, dlatego warto sięgać do źródła, zwłaszcza gdy chodzi o pytanie napisane w ich książce. Mógłbym przejść do źródła, uzyskać odpowiedź, a następnie przedstawić ją tutaj.

— Michael R. Chernick

Ludzie są zastraszani statusem źródła jako autorytetu, zakładają, że źródło jest zbyt zajęte, aby poradzić sobie z ich (ich zdaniem) drobnym i nieistotnym pytaniem, boją się stać się niegrzeczni „dlaczego mi to przeszkadza?” odpowiedź ... O wiele łatwiej jest przejść do źródła, jeśli ty też jesteś źródłem, być może dla innych rzeczy w terenie.

— łucznik

@jbowman Tak. Rozumiem, że. Ale zauważysz, że znam Tibshirani i Friedmana osobiście i zapewniłem Op, że ich strach jest bezpodstawny wobec tych autorów. Nie wspomniałem o Hastie, ponieważ nie znam go tak dobrze, jak inni.

— Michael R. Chernick

@chl Nie sądzę, że możemy realistycznie oczekiwać, że zobaczą, jak dołączą do witryny. Zajęty profesorom wymaga zbyt wiele czasu, z kilkoma wyjątkami, takimi jak Frank Harrell i być może inni, którzy używają pseudonimów. Myślę jednak, że poświęcą czas na udzielenie odpowiedzi na konkretne pytania przesłane bezpośrednio do nich.

— Michael R. Chernick

Rozważmy karany model liniowy.

$L_0$ $L_1$

$L_1$

$L_2$ $\lambda$ $L_2$

— Donbeo
źródło

L_{0}

$L_0$

L_{0}

$L_0$

Kilka dodatków do odpowiedzi @Donbeo

1) Norma L0 nie jest normą w prawdziwym znaczeniu tego słowa. Jest to liczba niezerowych wpisów w wektorze. Norma ta wyraźnie nie jest normą wypukłą i nie jest normą w prawdziwym tego słowa znaczeniu. Dlatego możesz zobaczyć terminy takie jak „norma” L0. Staje się problemem kombinatorycznym i dlatego jest trudny do przeprowadzenia.

2) Norma L1 daje rzadkie rozwiązanie (spójrz na LASSO). Candes, Donoho itd. Przedstawiają przełomowe wyniki, które pokazują, że jeśli prawdziwe rozwiązanie jest naprawdę rzadkie, zastosowane metody L1 go odzyskają. Jeśli podstawowe rozwiązanie nie jest rzadkie, nie otrzymasz rozwiązania podstawowego w przypadkach, gdy p >> n. Są ładne wyniki, które pokazują, że Lasso jest spójny.

3) Istnieją metody, takie jak elastyczna siatka Zhou i Hastie, które łączą karane rozwiązania L2 i L1.

— Sid
źródło