Kiedy stosować metody regularyzacji do regresji?

83

W jakich okolicznościach należy rozważyć zastosowanie metod regularyzacji (regresja kalenicy, lasso lub najmniejszych kątów) zamiast OLS?

W przypadku gdy pomaga to w prowadzeniu dyskusji, moim głównym zainteresowaniem jest poprawienie dokładności predykcyjnej.

— NPE
źródło

75

Krótka odpowiedź: kiedykolwiek napotykasz jedną z następujących sytuacji:

duża liczba zmiennych lub niski stosunek liczby nie. uwagi do nie. zmienne (w tym przypadek ), $n\ll p$
wysoka kolinearność,
poszukiwanie rzadkiego rozwiązania (tj. wybór funkcji osadzania podczas szacowania parametrów modelu), lub
rozliczanie grup zmiennych w wielowymiarowym zbiorze danych.

Regresja kalenicy daje z reguły lepsze prognozy niż rozwiązanie OLS, dzięki lepszemu kompromisowi między stronniczością a wariancją. Jego główną wadą jest to, że wszystkie predyktory są przechowywane w modelu, więc nie jest to bardzo interesujące, jeśli szukasz oszczędnego modelu lub chcesz zastosować jakiś wybór funkcji.

Aby osiągnąć rzadkość, lasso jest bardziej odpowiednie, ale niekoniecznie przyniesie dobre wyniki w obecności wysokiej kolinearności (zaobserwowano, że jeśli predyktory są silnie skorelowane, wydajność prognozowania lassa jest zdominowana przez regresję grzbietu). Drugi problem z karą L1 polega na tym, że rozwiązanie lasso nie jest jednoznacznie określone, gdy liczba zmiennych jest większa niż liczba podmiotów (nie dotyczy to regresji grzbietu). Ostatnia wada lasso polega na tym, że ma on tendencję do wybierania tylko jednej zmiennej spośród grupy predyktorów o wysokich korelacjach par. W tym przypadku istnieją alternatywne rozwiązania, takie jak grupa (tj. Osiągnięcie skurczu na bloku zmiennych towarzyszących, to znaczy niektóre bloki współczynników regresji są dokładnie zerowe) lub połączonelasso. Graphical Lasso oferuje również obiecujące możliwości dla GGMs (patrz R glasso pakiet).

$m>p$ $n\ll p$ $\beta$

L (λ_{1}, λ_{2}, β) = ‖ Y - X β ‖^{2} + λ_{2} ‖ β ‖^{2} + λ_{1} ‖ β ‖_{1}

$L(\lambda_1,\lambda_2,\mathbf{\beta}) = \|Y-X\beta\|^2 + \lambda_2\|\beta\|^2 + \lambda_1\|\beta\|_1$

gdzie i. $\|\beta\|^2=\sum_{j=1}^p\beta_j^2$ $\|\beta\|^1=\sum_{j=1}^p|\beta_j |$

Lasso można obliczyć za pomocą algorytmu opartego na zejściu współrzędnych, jak opisano w najnowszym artykule Friedmana i współpracownika, Ścieżki regularyzacji dla uogólnionych modeli liniowych poprzez zejście współrzędnych (JSS, 2010) lub algorytm LARS. W wersji R pakiety penalizowane , lars lub biglars i glmnet są użytecznymi pakietami; w Pythonie dostępny jest zestaw narzędzi scikit.learn , z obszerną dokumentacją algorytmów zastosowanych do wszystkich trzech rodzajów schematów regularyzacji.

Jeśli chodzi o ogólne odniesienia, strona Lasso zawiera większość tego, co jest potrzebne, aby zacząć od regresji Lasso i szczegóły techniczne dotyczące kary za L1, a to pokrewne pytanie zawiera istotne odniesienia, kiedy powinienem używać lasso kontra grzbiet?

— chl
źródło

1

Co jeśli mam dużo obserwacji przy stosunkowo niewielu zmiennych, ale bardzo niskim stosunku sygnału do szumu? Tak niska, że nadmierne dopasowanie jest bardzo realnym problemem. Czy regularyzacja byłaby sensowna, aby spróbować poprawić dokładność predykcyjną?

— NPE,

1

@ aix Zależy to od tego, co tak naprawdę nazywamy kilkoma zmiennymi i od jakiego rodzaju zmiennych mamy do czynienia. Ale myślę, że w twoim przypadku należy preferować podejście graniczne. Możesz także spojrzeć na Boosting Ridge Regression (Tutz & Binder, 2005). Karane oszacowanie ML zaproponowano również jako wbudowaną metodę zapobiegania nadmiernemu dopasowaniu; patrz np. Szacowane maksymalne prawdopodobieństwo oszacowania wyników binarnych: księżyce KG, Donders AR, Steyerberg EW, Harrell FE. J. Clin. Epidemiol. 2004, 57 (12): 1262–70.

— chl

20

Teoretycznym uzasadnieniem zastosowania regresji kalenicowej jest to, że jej rozwiązaniem jest średnia tylna, biorąc pod uwagę normalną wcześniejszą wartość współczynników. Oznacza to, że jeśli zależy ci na kwadracie błędu i wierzysz w normalne przejęcie, szacunki grzbietu są optymalne.

Podobnie, oszacowanie lasso jest trybem tylnym pod podwójnym wykładniczym wyprzedzeniem twoich współczynników. Jest to optymalne przy funkcji straty zero-jedynkowej.

W praktyce techniki te zazwyczaj poprawiają dokładność predykcyjną w sytuacjach, w których istnieje wiele skorelowanych zmiennych i mało danych. Chociaż estymator OLS jest najlepiej liniowo bezstronny, w tych sytuacjach ma dużą wariancję. Jeśli spojrzysz na kompromis wariancji odchylenia, dokładność prognozowania poprawia się, ponieważ niewielki wzrost odchylenia jest więcej niż rekompensowany przez duże zmniejszenie wariancji.

— ncray
źródło