Regresja najmniejszego kąta vs. lasso


39

Regresja przy najmniejszym kącie i lasso mają tendencję do tworzenia bardzo podobnych ścieżek regularyzacji (identycznych, z wyjątkiem przypadków, gdy współczynnik przekracza zero).

Oba mogą być skutecznie dopasowane za pomocą praktycznie identycznych algorytmów.

Czy jest jakiś praktyczny powód, aby preferować jedną metodę od drugiej?


Jeśli w tym momencie ponownie ocenisz odpowiedzi, czy wybierzesz inną „zaakceptowaną” odpowiedź?
Aaron Hall

Odpowiedzi:


13

Twierdzenia „bez darmowego lunchu” sugerują, że nie ma a priori rozróżnienia między algorytmami wnioskowania statystycznego, tj. To, czy LARS czy LASSO działa najlepiej, zależy od charakteru konkretnego zestawu danych. W praktyce najlepiej jest wypróbować jedno i drugie i użyć pewnego wiarygodnego estymatora wydajności uogólnienia, aby zdecydować, którego użyć w działaniu (lub użyć zestawu). Ponieważ różnice między LARS i LASSO są raczej niewielkie, różnice w wydajności prawdopodobnie będą również niewielkie, ale ogólnie jest tylko jeden sposób, aby się przekonać!


Czy możesz rozwinąć możliwą „metodę zespołu” w tym konkretnym przypadku?
chl

35

W trybie etapowym algorytm LARS jest chciwą metodą, która nie daje możliwego do udowodnienia spójnego estymatora (innymi słowy, nie osiąga stabilnego wyniku po zwiększeniu liczby próbek).

I odwrotnie, LASSO (a zatem algorytm LARS, gdy jest używany w trybie LASSO) rozwiązuje problem dopasowania wypukłych danych. W szczególności problem ten (penalizowany estymator liniowy L1) ma wiele sprawdzonych właściwości (konsystencja, sparsistencja).

Dlatego starałbym się zawsze używać LARS w trybie LASSO (lub użyć innego solvera dla LASSO), chyba że masz bardzo dobre powody, aby preferować etapy.


9

LASSO nie jest algorytmem per se, ale operatorem.

1

Kolejnym jest LARS, bardzo popularny ze względu na swoją prostotę, połączenie z postępowymi procedurami (ale niezbyt zachłannymi), bardzo konstruktywny dowód i łatwą generalizację.

Nawet w porównaniu z najnowszymi kwadratowymi rozwiązaniami programistycznymi, LARS może być znacznie bardziej wydajny.


9

l1l1l2

Zamiarem tej odpowiedzi jest wskazanie, że LARS wydaje się być zastąpiony metodami współrzędnego opadania i stochastycznej metody opadania współrzędnych . Metody te opierają się na szczególnie prostych algorytmach, a jednocześnie wydajność wydaje się być wyższa niż LARS (często o jeden lub dwa rzędy wielkości szybsze). Przykłady podano w pracy Friedmana i in.

Jeśli więc planujesz wdrożyć LARS, nie rób tego. Użyj opadania współrzędnych, co zajmuje kilka godzin.


1
+1 za brak implementacji LARS, ale zejście ze współrzędnymi: ma ustawienia, w których jest lepsze niż zejście ze współrzędnymi (na przykład w przypadku bardzo małych i niewielkich problemów, które są bardzo rzadkie, zobacz tezę Juliena Mairala dla porównań empirycznych), ale jest bardzo trudne do wdrożenia, znacznie trudniejsze niż zejście współrzędnych.
Gael Varoquaux

3

λ


Oto moja opinia:

Cp

Ponadto LARS jest obliczeniowo szybki i niezawodny. Lasso jest szybki, ale istnieje niewielka różnica między algorytmem, która powoduje, że LARS wygrywa wyzwanie prędkości. Z drugiej strony istnieją alternatywne pakiety, na przykład w R, zwane „glmnet”, które działają bardziej niezawodnie niż pakiet lars (ponieważ jest bardziej ogólny).

Podsumowując, nie ma nic znaczącego, co można by rozważyć w przypadku Larsa i Lasso. Zależy to od kontekstu, w którym będziesz używać modelu.

Osobiście radzę używać glmnet w R zarówno w przypadkach o wysokim, jak i niskim wymiarze. lub jeśli jesteś zainteresowany innymi kryteriami, możesz użyć pakietu http://cran.r-project.org/web/packages/msgps/ .


0

W niektórych kontekstach preferowana może być uregulowana wersja rozwiązania najmniejszych kwadratów. Na przykład algorytm LASSO (operator najmniejszego bezwzględnego skurczu i selekcji) znajduje rozwiązanie najmniejszych kwadratów z ograniczeniem, że | β | 1, norma L1 wektora parametru, jest nie większa niż podana wartość. Odpowiednio, może rozwiązać nieograniczoną minimalizację kary za najmniejsze kwadraty za pomocą α | β | 1 dodano, gdzie α jest stałą (jest to forma Lagrange'a ograniczonego problemu). Problem ten można rozwiązać za pomocą programowania kwadratowego lub bardziej ogólnych metod optymalizacji wypukłej, a także za pomocą określonych algorytmów, takich jak algorytm regresji najmniejszego kąta. Preparat z regulacją L1 jest przydatny w niektórych kontekstach ze względu na jego tendencję do preferowania rozwiązań o mniejszej liczbie niezerowych parametrów, skutecznie zmniejszając liczbę zmiennych, od których zależy dane rozwiązanie [11] Z tego powodu LASSO i jego warianty mają fundamentalne znaczenie w dziedzinie wykrywania skompresowanego.


5
Z szacunkiem wygląda to na bezpośrednie kopiowanie i wklejanie z Wikipedii i tak naprawdę nie odpowiada na pytanie.
NPE,

3
(-1) Przynajmniej powinieneś potwierdzić cytat z Wikipedii, § dotyczący metody LASSO na en.wikipedia.org/wiki/Least_squares !!! BTW, zapomniałeś wkleić 11. referencję.
chl

Zapomniałem podać link, to prawda, ale myślę, że to dobra odpowiedź na te pytania. Przepraszam, jeśli
kazałem

np
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.