Odpowiedzi:
Krótka odpowiedź: kiedykolwiek napotykasz jedną z następujących sytuacji:
Regresja kalenicy daje z reguły lepsze prognozy niż rozwiązanie OLS, dzięki lepszemu kompromisowi między stronniczością a wariancją. Jego główną wadą jest to, że wszystkie predyktory są przechowywane w modelu, więc nie jest to bardzo interesujące, jeśli szukasz oszczędnego modelu lub chcesz zastosować jakiś wybór funkcji.
Aby osiągnąć rzadkość, lasso jest bardziej odpowiednie, ale niekoniecznie przyniesie dobre wyniki w obecności wysokiej kolinearności (zaobserwowano, że jeśli predyktory są silnie skorelowane, wydajność prognozowania lassa jest zdominowana przez regresję grzbietu). Drugi problem z karą L1 polega na tym, że rozwiązanie lasso nie jest jednoznacznie określone, gdy liczba zmiennych jest większa niż liczba podmiotów (nie dotyczy to regresji grzbietu). Ostatnia wada lasso polega na tym, że ma on tendencję do wybierania tylko jednej zmiennej spośród grupy predyktorów o wysokich korelacjach par. W tym przypadku istnieją alternatywne rozwiązania, takie jak grupa (tj. Osiągnięcie skurczu na bloku zmiennych towarzyszących, to znaczy niektóre bloki współczynników regresji są dokładnie zerowe) lub połączonelasso. Graphical Lasso oferuje również obiecujące możliwości dla GGMs (patrz R glasso pakiet).
gdzie i.
Lasso można obliczyć za pomocą algorytmu opartego na zejściu współrzędnych, jak opisano w najnowszym artykule Friedmana i współpracownika, Ścieżki regularyzacji dla uogólnionych modeli liniowych poprzez zejście współrzędnych (JSS, 2010) lub algorytm LARS. W wersji R pakiety penalizowane , lars lub biglars i glmnet są użytecznymi pakietami; w Pythonie dostępny jest zestaw narzędzi scikit.learn , z obszerną dokumentacją algorytmów zastosowanych do wszystkich trzech rodzajów schematów regularyzacji.
Jeśli chodzi o ogólne odniesienia, strona Lasso zawiera większość tego, co jest potrzebne, aby zacząć od regresji Lasso i szczegóły techniczne dotyczące kary za L1, a to pokrewne pytanie zawiera istotne odniesienia, kiedy powinienem używać lasso kontra grzbiet?
Teoretycznym uzasadnieniem zastosowania regresji kalenicowej jest to, że jej rozwiązaniem jest średnia tylna, biorąc pod uwagę normalną wcześniejszą wartość współczynników. Oznacza to, że jeśli zależy ci na kwadracie błędu i wierzysz w normalne przejęcie, szacunki grzbietu są optymalne.
Podobnie, oszacowanie lasso jest trybem tylnym pod podwójnym wykładniczym wyprzedzeniem twoich współczynników. Jest to optymalne przy funkcji straty zero-jedynkowej.
W praktyce techniki te zazwyczaj poprawiają dokładność predykcyjną w sytuacjach, w których istnieje wiele skorelowanych zmiennych i mało danych. Chociaż estymator OLS jest najlepiej liniowo bezstronny, w tych sytuacjach ma dużą wariancję. Jeśli spojrzysz na kompromis wariancji odchylenia, dokładność prognozowania poprawia się, ponieważ niewielki wzrost odchylenia jest więcej niż rekompensowany przez duże zmniejszenie wariancji.