Co znaczą statystycy, gdy mówią, że tak naprawdę nie rozumiemy, jak działa LASSO (regularyzacja)?

Byłem ostatnio na kilku rozmowach statystycznych na temat Lasso (regularyzacja), a kwestią, która wciąż się pojawia, jest to, że tak naprawdę nie rozumiemy, dlaczego Lasso działa lub dlaczego działa tak dobrze. Zastanawiam się, do czego odnosi się to oświadczenie. Oczywiście rozumiem, dlaczego Lasso działa technicznie, zapobiegając nadmiernemu dopasowaniu poprzez kurczenie się parametrów, ale zastanawiam się, czy takie stwierdzenie ma głębsze znaczenie. Czy ktoś ma jakieś pomysły? Dzięki!

machine-learning lasso regularization

— użytkownik321627
źródło

Zdefiniuj „działa”. Działa, aby robić dokładnie to, co? Działa, aby zwiększyć rzadkość? Działa, aby zapobiec nadmiernemu dopasowaniu? Czy działa na rzecz uzyskania rozsądnych testów statystycznych? - Lub inaczej mówiąc, co w tym kontekście oznaczałoby „nie działa”? - Jak widać z komentarzy do bieżącej odpowiedzi, istnieje pewne zamieszanie co do tego, czego szukasz.

— RM

@RM, właśnie zmieniasz tekst OP, IMHO. OP jest prawdopodobnie po tej samej nieznanej, co ta, którą masz problemy z identyfikacją.

— Richard Hardy

@RichardHardy Rozumiem, jak to może być, ale jeśli tak, to mam nadzieję, że PO może przynajmniej rozszerzyć kontekst w tych rozmowach statystycznych, w których omawiano ten punkt, aby, mam nadzieję, pomóc nam skupić się na tym, co ci mówcy mogą myślałem.

— RM

@RM, to dobrze.

— Richard Hardy

Odpowiedzi:

Czasami brakuje komunikacji między działającymi statystykami a społecznością teorii uczenia się, które badają podstawy metod takich jak lasso. Teoretyczne właściwości lasso są właściwie bardzo dobrze zrozumiane.

Ten dokument zawiera podsumowanie w sekcji 4 wielu właściwości, z których korzysta. Wyniki są dość techniczne, ale zasadniczo:

Odzyskuje prawdziwe wsparcie (zestaw niezerowych wpisów) rzadkiego wektora ciężaru przy pewnych łagodnych założeniach, dla wystarczająco dużych zestawów danych, z dużym prawdopodobieństwem.
Zbiega się do prawidłowego wektora masy z optymalną szybkością wraz ze wzrostem wielkości próbki, o ile kolumny nie są zbyt skorelowane. $X$

— AaronDefazio
źródło

Jeśli rozumiejąc, dlaczego Lasso działa, masz na myśli zrozumienie, dlaczego dokonuje wyboru funkcji (tj. Ustawiając wagi dla niektórych funkcji na dokładnie 0), rozumiemy to bardzo dobrze:

— spłukać
źródło

Dziękuję za miłą ilustrację, ale podejrzewam, że nie jest to część, którą OP jest zainteresowany. Oczywiście to OP musi to wyjaśnić.

— Richard Hardy

Nie rozumiem punktu na twoim diagramie.

— Michael R. Chernick

Głosowałem za tym, ponieważ ten schemat istnieje od co najmniej oryginalnego papieru lasso Tibshirani i nie pomaga w tym pytaniu. Doskonale rozumiemy, dlaczego kara prowadzi do rzadkości w standardowym lasso, ale lasso to znacznie więcej niż tylko to. Pojawiają się pytania o rozkłady współczynników i testy hipotez, modyfikowanie kary, aby wymusić pewne wzorce zerowe, asymptotyczne wyniki, takie jak niereprezentatywność, wydajność, kiedy podłączamy wybrane przez CV, i wiele więcej

L_{1}

$L_1$

\hat{λ}

$\hat \lambda$

— jld

@Chaconne, twoje punkty stanowią doskonałą podstawę do odpowiedzi!

— Richard Hardy

@Chaconne, to nie wydaje się generować użyteczną dyskusję choć przez określenie, co należy rozumieć o Lasso!

— rinspy 30.03.17

Występuje problem odzyskiwania znaku spójności wyboru modelu (na co odpowiedzieli statystycy ) i

istnieje problem wnioskowania (konstruowania dobrych przedziałów ufności dla oszacowań), który jest tematem badań.

Większość pracy wykonują statystycy, a nie „społeczność teorii uczenia się”.

— Gao Zheng
źródło

Jak to się dodaje do tego, co już podano?

— Michael R. Chernick

Nikt nie wspomniał tutaj o problemie wnioskowania, który moim zdaniem jest powodem, dla którego twierdzenie („nie jest dobrze zrozumiane”) zostało postawione w pierwszej kolejności.

— Gao Zheng,