Czy istnieje podobne twierdzenie dotyczące lasso? Jeśli istnieje takie twierdzenie, nie tylko zagwarantuje ono stabilność lasso, ale także zapewni lasso bardziej sensowną interpretację:
lasso może odkryć wektor współczynnika regresji rzadkiej który jest używany do wygenerowania odpowiedzi przez .
Są dwa powody, dla których zadaję to pytanie:
Myślę, że „lasso preferuje rzadkie rozwiązanie” nie jest odpowiedzią na to, dlaczego używamy lasso do wyboru funkcji, ponieważ nie jesteśmy nawet w stanie powiedzieć, jaka jest zaleta wybranych przez nas funkcji.
Dowiedziałem się, że lasso słynie z niestabilności w wyborze funkcji. W praktyce musimy uruchomić próbki bootstrap, aby ocenić jego stabilność. Jaki jest najważniejszy powód, który powoduje tę niestabilność?
Dodatek:
Biorąc pod uwagę . jest wektorem rzadkim ( ). Proces generuje odpowiedź . Jeśli ma NSP (właściwość pustego miejsca) rzędu a macierz kowariancji nie ma wartości własnej bliskiej zeru, będzie unikalne rozwiązanie dla
To twierdzenie mówi również, że jeśli nie ma NSP rzędu , po prostu beznadziejne jest rozwiązanie .Ω argmin c : y = X c ‖ c ‖ 1
EDYTOWAĆ:
Po otrzymaniu tych wspaniałych odpowiedzi zdałem sobie sprawę, że byłem zdezorientowany, kiedy zadawałem to pytanie.
Dlaczego to pytanie jest mylące:
Czytam artykuł badawczy, w którym musimy zdecydować, ile funkcji (kolumn) będzie miała macierz projektowa (funkcje pomocnicze są tworzone z funkcji pierwotnych). Ponieważ jest to typowy problem , oczekuje się, że będzie dobrze skonstruowany, dzięki czemu rozwiązanie lasso może być dobrym przybliżeniem rzeczywistego rozwiązania rzadkiego. n < p D
Rozumowanie opiera się na twierdzeniu, o którym wspomniałem w załączniku: jeśli chcemy znaleźć rozwiązanie rzadkie , lepiej jest mieć NSP rzędu .c X Ω
W przypadku ogólnej macierzy , jeśli zostanie naruszone, toN > C Ω ln M
brak stabilnego i stabilne odzyskiwanie z i jest możliwaD P
X odpowiada , odpowiaday
... zgodnie z oczekiwaniami w relacji , wybór deskryptora staje się bardziej niestabilny, tj. dla różnych zbiorów szkoleniowych wybrany deskryptor często się różni ...
Drugi cytat to ta część, która mnie myli. Wydaje mi się, że gdy naruszona zostanie nierówność, nie tylko rozwiązanie może być nieunikalne (nie wspomniane), ale deskryptor stanie się również bardziej niestabilny.