Jak uzyskać rozwiązanie regresji kalenicy?

40

Mam pewne problemy z wyprowadzeniem rozwiązania regresji kalenicowej.

Znam rozwiązanie regresji bez terminu regularyzacji:

β = (X^{T} X)^{- 1} X^{T} y .

$\beta = (X^TX)^{-1}X^Ty.$

Ale po dodaniu terminu L2 do funkcji kosztu, w jaki sposób rozwiązanie staje się $\lambda\|\beta\|_2^2$

β = (X^{T} X + λ I)^{- 1} X^{T} y .

$\beta = (X^TX + \lambda I)^{-1}X^Ty.$

— użytkownik34790
źródło

23

Wystarczy zmodyfikować funkcję straty przez dodanie kary. Pod względem macierzowym początkowa funkcja straty kwadratowej staje się

(Y - X β)^{T} (Y - X β) + λ β^{T} β .

$(Y - X\beta)^{T}(Y-X\beta) + \lambda \beta^T\beta.$ Wyprowadzanie w odniesieniu do

β

$\beta$ prowadzi do normalnego równania

X^{T} Y = (X^{T} X + λ I) β

$X^{T}Y = \left(X^{T}X + \lambda I\right)\beta$ co prowadzi do estymacji Ridge.

— Jasio
źródło

1

Dlaczego pochodna

λ β^{T} β

$\lambda \beta^T \beta$ jest równa

λ I β

$\lambda I \beta$

— użytkownik34790

4

@ user34790 To nie jest. Jest równy

2 λ β

$2\lambda\beta$ . Ale 2 anuluje z podobnymi 2 na innych warunkach. Oczywiście, współczynnik

I

$I$ jest jak współczynnik 1 w „zwykłej” algebrze, możesz go pomnożyć w dowolnym miejscu bez zmiany czegokolwiek.

— Bill

4

@ bill: tutaj potrzebujesz aby uzyskać macierz o właściwym wymiarze, więc dodawanie działa z : jest tylko skalarem

I

$I$

X^{T} X

$X^TX$

λ

$\lambda$

— Henry

47

Oprzyjmy się na tym, co wiemy, a mianowicie, że ilekroć macierz modelu wynosi , odpowiedź wektor to , a parametr wektor to , funkcja celu $n\times p$ $X$ $n$ $y$ $p$ $\beta$

f (β) = (y - X β)^{'} (y - X β)

$f(\beta) = (y - X\beta)^\prime(y - X\beta)$

(która jest sumą kwadratów reszt) jest minimalizowana, gdy rozwiązuje równania normalne $\beta$

(X^{'} X) β = X^{'} y .

$(X^\prime X)\beta = X^\prime y.$

Regresja kalenicy dodaje kolejny termin do funkcji celu (zwykle po standaryzacji wszystkich zmiennych w celu ustalenia ich wspólnej podstawy), prosząc o zminimalizowanie

(y - X β)^{'} (y - X β) + λ β^{'} β

$(y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta$

dla pewnej stałej nieujemnej . Jest to suma kwadratów reszt plus wielokrotność sumy kwadratów samych współczynników (co pokazuje, że ma globalne minimum). Ponieważ , ma dodatni pierwiastek kwadratowy . $\lambda$ $\lambda\ge 0$ $\nu^2 = \lambda$

Rozważmy macierz powiększoną o rzędy odpowiadające razy macierz tożsamości : $X$ $\nu$ $p\times p$ $I$

X_{*} = (\begin{matrix} X \\ ν I \end{matrix})

$X_{*} = \pmatrix{X \\ \nu I}$

Gdy wektor jest podobnie przedłużany z zerami na końcu do , iloczyn macierzowy w funkcji celu dodaje dodatkowe warunki formy do pierwotnego celu. W związku z tym $y$ $p$ $y_{*}$ $p$ $(0 - \nu \beta_i)^2 = \lambda \beta_i^2$

(y_{*} - X_{*} β)^{'} (y_{*} - X_{*} β) = (y - X β)^{'} (y - X β) + λ β^{'} β .

$(y_{*} - X_{*}\beta)^\prime(y_{*} - X_{*}\beta) = (y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta.$

Z formy wyrażenia lewej ręki natychmiast wynika, że równania normalne są

(X_{*}^{'} X_{*}) β = X_{*}^{'} y_{*} .

$(X_{*}^\prime X_{*})\beta = X_{*}^\prime y_{*}.$

Ponieważ do końca dołączyliśmy zera , prawa strona jest taka sama jak . Na lewej stronie dodaje się do oryginalnego . Dlatego nowe równania normalne upraszczają $y$ $X^\prime y$ $\nu^2 I=\lambda I$ $X^\prime X$

(X^{'} X + λ I) β = X^{'} y .

$(X^\prime X + \lambda I)\beta = X^\prime y.$

Oprócz tego, że jest koncepcyjnie ekonomiczny - nie są potrzebne żadne nowe manipulacje, aby uzyskać ten wynik - jest to również ekonomicznie obliczeniowe: twoje oprogramowanie do wykonywania zwykłych najmniejszych kwadratów również wykona regresję grzbietu bez żadnych zmian. (Niemniej jednak przy dużych problemach pomocne może być użycie oprogramowania zaprojektowanego do tego celu, ponieważ wykorzysta on specjalną strukturę celu skutecznego uzyskania wyników dla gęsto rozmieszczonych przedziałów , umożliwiając zbadanie, jak różne są odpowiedzi z .) $X_{*}$ $\lambda$ $\lambda$

Innym pięknem tego sposobu patrzenia na rzeczy jest to, w jaki sposób może pomóc nam zrozumieć regresję grzbietu. Kiedy chcemy naprawdę zrozumieć regresję, prawie zawsze pomaga myśleć o niej geometrycznie: kolumny stanowią wektory w przestrzeni wektora rzeczywistego o wymiarze . Łącząc z , tym samym przedłużając je z wektorów do wektorów osadzamy w większej przestrzeni , włączając „urojone”, wzajemnie ortogonalne kierunki. Pierwsza kolumna $X$ $p$ $n$ $\nu I$ $X$ $n$ $n+p$ $\mathbb{R}^n$ $\mathbb{R}^{n+p}$ $p$ $X$ otrzymuje mały wymyślony składnik o rozmiarze , który wydłuża go i przenosi z przestrzeni generowanej przez oryginalne kolumny . Druga, trzecia, ..., są podobnie przedłużane i przenoszone z pierwotnej przestrzeni o tę samą wielkość - ale wszystkie w różnych nowych kierunkach. W związku z tym wszelkie kolinearność występujące w oryginalnych kolumnach zostaną natychmiast rozwiązane. Co więcej, im większe , tym bardziej te nowe wektory zbliżają się do poszczególnych $\nu$ $p$ $p^\text{th}$ $\nu$ $\nu$ $p$ wyobrażone kierunki: stają się coraz bardziej ortonormalne. W związku z tym rozwiązanie równań normalnych stanie się natychmiast możliwe i szybko stanie się stabilne numerycznie, gdy wzrośnie od . $\nu$ $0$

Ten opis procesu sugeruje kilka nowatorskich i kreatywnych podejść do rozwiązywania problemów, które zaprojektowano z myślą o regresji grzbietu. Na przykład przy użyciu jakichkolwiek środków (takich jak rozkład wariancji opisany przez Belsleya, Kuha i Welscha w ich książce z 1980 r. Na temat diagnostyki regresji , rozdział 3), możesz być w stanie zidentyfikować podgrupy prawie kolinearnych kolumn , gdzie każda podgrupa jest prawie ortogonalny w stosunku do każdego innego. Trzeba tylko przylegają tyle wierszy do (i jedynek do ), ponieważ istnieją elementy w największej grupy, poświęcając jeden nowy wymiar „wyimaginowany” do przemieszczania każdy element grupy z dala od jego rodzeństwa: nie trzeba urojoną wymiary, aby to zrobić. $X$ $X$ $y$ $p$

— Whuber
źródło

2

Ostatnim autorem książki jest Welsch, a nie walijski.

— Mark L. Stone,

1

Whoa, to po prostu oszalało. Czy jest jakaś dyskusja na temat tego, co się dzieje, gdy jest to uogólnione poza modelami liniowymi, tj. Na glm's? Kara nie powinna być taka sama jak regresja kalenicy ... ale ta interpretacja sugeruje, że nadal byłby potencjalnym użytecznym estymatorem!

— Cliff AB,

2

@Cliff To bardzo interesująca sugestia. Ponieważ jednak oszacowania GLM zależą w bardziej skomplikowany sposób od a ich estymatory zwykle nie mogą być uwzględnione w postaci tak jak w przypadku OLS (gdzie i ), ustalenie użytecznej zależności między narzuceniem funkcji karnej a modyfikacją kolumn może być trudne . W szczególności nie jest jasne, w jaki sposób należy zwiększyć wartości , aby to zadziałało.

X

$X$

\hat{β} = g (X) \cdot h (y)

$\hat\beta = g(X)\cdot h(y)$

g (X) = (X^{'} X)^{- 1} X^{'}

$g(X)=(X^\prime X)^{-1}X^\prime$

h (y) = y

$h(y)=y$

X

$X$

y

$y$

— whuber

1

Tak, trzeba zastanowić się, jaka jest kara, ale nie martwię się tym. Pomysł użycia nie jest na ogół łatwy ... z wyjątkiem być może regresji logistycznej, w której moglibyśmy dodać dwie ; jeden z zer i jeden z nich. To powiększenie byłoby wówczas bardziej ogólną wersją „estymatora dwumianowego +2” (istnieje bardziej odpowiednia nazwa dla tego estymatora, na który się wygasam, to jest w zasadzie, gdy szacujesz podstawie rozkładu dwumianowego za pomocą średniej tylnej jako szacunek z jednolitym wcześniejszym na ).

y_{*}

$y_*$

y_{*}

$y_*$

p

$p$

p

$p$

— Cliff AB,

@ Mark Dziękujemy za korektę. Możesz powiedzieć, że wychodzę z pamięci ... :-).

— whuber

20

Wyprowadzenie obejmuje rachunek macierzowy, który może być dość żmudny. Chcielibyśmy rozwiązać następujący problem:

min_{β} (Y - β^{T} X)^{T} (Y - β^{T} X) + λ β^{T} β

$\begin{equation} \min_\beta (Y-\beta^T X)^T(Y-\beta^T X)+\lambda \beta^T \beta \end{equation}$

Teraz zauważ, że i Razem dochodzimy do warunku pierwszego rzędu Wyizolowanie daje rozwiązanie:

\frac{\partial (Y - β^{T} X)^{T} (Y - β^{T} X)}{\partial β} = - 2 X^{T} (Y - β^{T} X)

$\begin{equation} \frac{\partial (Y-\beta^T X)^T (Y-\beta^T X)}{\partial \beta}=-2X^T(Y-\beta^T X) \end{equation}$

\frac{\partial λ β^{T} β}{\partial β} = 2 λ β .

$\begin{equation} \frac{\partial \lambda \beta^T \beta}{\partial \beta}=2\lambda\beta. \end{equation}$

X^{T} Y = X^{T} X β + λ β .

$\begin{equation} X^TY = X^TX\beta + \lambda\beta. \end{equation}$

β

$\beta$

β = (X^{T} X + λ I)^{- 1} X^{T} Y .

$\begin{equation} \beta = (X^TX+ \lambda I )^{-1}X^T Y. \end{equation}$

— pthesling
źródło

9

Ostatnio natknąłem się na to samo pytanie w kontekście P-splajnów, a ponieważ koncepcja jest taka sama, chcę udzielić bardziej szczegółowej odpowiedzi na temat wyprowadzenia estymatora grzbietu.

Zaczynamy od ukaranej funkcji kryterialnej, która różni się od klasycznej funkcji kryterium OLS terminem karania w ostatnim sezonie:

$Criterion_{Ridge} = \sum_{i=1}^{n}(y_i-x_i^T\beta)^2 + \lambda \sum_{j=1}^p\beta_j^2$

gdzie

$p=$ ilość zmiennych zmiennych używanych w modelu
$x_i^T\beta =$ twój standardowy predyktor liniowy
pierwszy summand reprezentuje MSE (kwadratowe odchylenie prognozy od wartości rzeczywistej), które chcemy jak zwykle zminimalizować
drugi summand reprezentuje karę, jaką stosujemy wobec współczynników. Tutaj znajdujemy się w kontekście grzbietu, który implikuje Euklidesową miarę odległości, a zatem stopień 2 w okresie kary. W przypadku Penalizacji Lasso zastosowalibyśmy stopień 1 i otrzymalibyśmy zupełnie inny estymator.

Możemy przepisać to kryterium w notacji macierzowej i dalej je rozbić:

$Criterion_{Ridge} = (y-X\beta)^T(y-X\beta) + \lambda\beta^T\beta$

$= y^Ty - \beta^TX^Ty - y^TX\beta+ \beta^Tx^TX\beta + \lambda\beta^T\beta$

$= y^Ty - \beta^TX^Ty - \beta^TX^Ty + \beta^TX^TX\beta + \beta^T\lambda I\beta$ gdzie jest matrycą tożsamości $I$

$= y^Ty - 2\beta^TX^Ty + \beta^T(X^TX + \lambda I)\beta$

Teraz szukamy która minimalizuje nasze kryterium. Między innymi korzystamy z reguły różnicowania macierzy które możemy zastosuj tutaj jako : $\beta$ $\frac{\partial x^TAx}{\partial x} = (A+A^T)x \overset{\text{A symmetric}}{=} 2Ax$ $(X^TX + \lambda I) \in \mathbb{R}^{n \times n}$

$\frac{\partial Criterion_{Ridge} }{\partial\beta} = -2X^Ty + 2(X^TX + \lambda I)\beta \overset{!}{=}0$

$(X^TX + \lambda I)\beta = X^Ty$

$\overset{\text{et voilà}}{\Rightarrow} \hat\beta = (X^TX + \lambda I)^{-1} X^Ty$

— Jann Goschenhofer
źródło

@Jahn, czy możesz wyjaśnić, w jaki sposób stał się ? Myślę, że właśnie zastosowałeś transpozycję, prawda. Ale nie można po prostu zastosować transpozycji jednego terminu bez zastosowania go do wszystkich równań. Czego tu brakuje?

y^{T} X β

$y^TX\beta$

β^{T} X^{T} y

$\beta ^TX^Ty$

— teoretyk

1

@teateist Transponowany skalar to ten sam skalar.

— Konstantin,

2

W udzielonych odpowiedziach brakuje kilku ważnych rzeczy.

Rozwiązanie dla pochodzi z niezbędnego warunku pierwszego rzędu: co daje . Ale czy to wystarczy? Oznacza to, że rozwiązanie jest globalnym minimum tylko wtedy, gdy jest ściśle wypukły. Można to wykazać jako prawdę. $\beta$ $\frac{\partial f_{ridge}(\beta, \lambda)}{\partial \beta} = 0$ $\beta = (X^TX+ \lambda I )^{-1}X^T Y$ $f_{ridge}(\beta, \lambda)$
Innym sposobem spojrzenia na problem jest dostrzeżenie równoważności między i ograniczone do . OLS oznacza Zwyczajne Najmniejsze kwadraty. Z tej perspektywy to tylko funkcja Lagrangiana używana do znajdowania globalnych minimów wypukłej funkcji celu ograniczona funkcją wypukłą . $f_{ridge}(\beta, \lambda)$ $f_{OLS}(\beta) = (Y-\beta^T X)^T(Y-\beta^T X)$ $||\beta||^2_2 \leq t$ $f_{ridge}(\beta, \lambda)$ $f_{OLS}(\beta)$ $||\beta||^2_2$

Dobre wyjaśnienie tych punktów i wyprowadzenie można znaleźć w tych drobnych notatkach z wykładów: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdf $\beta$

— Davor Josipovic
źródło