Mam pewne problemy z wyprowadzeniem rozwiązania regresji kalenicowej.
Znam rozwiązanie regresji bez terminu regularyzacji:
Ale po dodaniu terminu L2 do funkcji kosztu, w jaki sposób rozwiązanie staje się
Mam pewne problemy z wyprowadzeniem rozwiązania regresji kalenicowej.
Znam rozwiązanie regresji bez terminu regularyzacji:
Ale po dodaniu terminu L2 do funkcji kosztu, w jaki sposób rozwiązanie staje się
Odpowiedzi:
Wystarczy zmodyfikować funkcję straty przez dodanie kary. Pod względem macierzowym początkowa funkcja straty kwadratowej staje się
Oprzyjmy się na tym, co wiemy, a mianowicie, że ilekroć macierz modelu wynosi , odpowiedź wektor to , a parametr wektor to , funkcja celu
(która jest sumą kwadratów reszt) jest minimalizowana, gdy rozwiązuje równania normalne
Regresja kalenicy dodaje kolejny termin do funkcji celu (zwykle po standaryzacji wszystkich zmiennych w celu ustalenia ich wspólnej podstawy), prosząc o zminimalizowanie
dla pewnej stałej nieujemnej . Jest to suma kwadratów reszt plus wielokrotność sumy kwadratów samych współczynników (co pokazuje, że ma globalne minimum). Ponieważ , ma dodatni pierwiastek kwadratowy .
Rozważmy macierz powiększoną o rzędy odpowiadające razy macierz tożsamości :
Gdy wektor jest podobnie przedłużany z zerami na końcu do , iloczyn macierzowy w funkcji celu dodaje dodatkowe warunki formy do pierwotnego celu. W związku z tym
Z formy wyrażenia lewej ręki natychmiast wynika, że równania normalne są
Ponieważ do końca dołączyliśmy zera , prawa strona jest taka sama jak . Na lewej stronie dodaje się do oryginalnego . Dlatego nowe równania normalne upraszczają
Oprócz tego, że jest koncepcyjnie ekonomiczny - nie są potrzebne żadne nowe manipulacje, aby uzyskać ten wynik - jest to również ekonomicznie obliczeniowe: twoje oprogramowanie do wykonywania zwykłych najmniejszych kwadratów również wykona regresję grzbietu bez żadnych zmian. (Niemniej jednak przy dużych problemach pomocne może być użycie oprogramowania zaprojektowanego do tego celu, ponieważ wykorzysta on specjalną strukturę celu skutecznego uzyskania wyników dla gęsto rozmieszczonych przedziałów , umożliwiając zbadanie, jak różne są odpowiedzi z .)
Innym pięknem tego sposobu patrzenia na rzeczy jest to, w jaki sposób może pomóc nam zrozumieć regresję grzbietu. Kiedy chcemy naprawdę zrozumieć regresję, prawie zawsze pomaga myśleć o niej geometrycznie: kolumny stanowią wektory w przestrzeni wektora rzeczywistego o wymiarze . Łącząc z , tym samym przedłużając je z wektorów do wektorów osadzamy w większej przestrzeni , włączając „urojone”, wzajemnie ortogonalne kierunki. Pierwsza kolumnaotrzymuje mały wymyślony składnik o rozmiarze , który wydłuża go i przenosi z przestrzeni generowanej przez oryginalne kolumny . Druga, trzecia, ..., są podobnie przedłużane i przenoszone z pierwotnej przestrzeni o tę samą wielkość - ale wszystkie w różnych nowych kierunkach. W związku z tym wszelkie kolinearność występujące w oryginalnych kolumnach zostaną natychmiast rozwiązane. Co więcej, im większe , tym bardziej te nowe wektory zbliżają się do poszczególnychwyobrażone kierunki: stają się coraz bardziej ortonormalne. W związku z tym rozwiązanie równań normalnych stanie się natychmiast możliwe i szybko stanie się stabilne numerycznie, gdy wzrośnie od .
Ten opis procesu sugeruje kilka nowatorskich i kreatywnych podejść do rozwiązywania problemów, które zaprojektowano z myślą o regresji grzbietu. Na przykład przy użyciu jakichkolwiek środków (takich jak rozkład wariancji opisany przez Belsleya, Kuha i Welscha w ich książce z 1980 r. Na temat diagnostyki regresji , rozdział 3), możesz być w stanie zidentyfikować podgrupy prawie kolinearnych kolumn , gdzie każda podgrupa jest prawie ortogonalny w stosunku do każdego innego. Trzeba tylko przylegają tyle wierszy do (i jedynek do ), ponieważ istnieją elementy w największej grupy, poświęcając jeden nowy wymiar „wyimaginowany” do przemieszczania każdy element grupy z dala od jego rodzeństwa: nie trzeba urojoną wymiary, aby to zrobić.
Ostatnio natknąłem się na to samo pytanie w kontekście P-splajnów, a ponieważ koncepcja jest taka sama, chcę udzielić bardziej szczegółowej odpowiedzi na temat wyprowadzenia estymatora grzbietu.
Zaczynamy od ukaranej funkcji kryterialnej, która różni się od klasycznej funkcji kryterium OLS terminem karania w ostatnim sezonie:
gdzie
Możemy przepisać to kryterium w notacji macierzowej i dalej je rozbić:
gdzie jest matrycą tożsamości
Teraz szukamy która minimalizuje nasze kryterium. Między innymi korzystamy z reguły różnicowania macierzy które możemy zastosuj tutaj jako :
W udzielonych odpowiedziach brakuje kilku ważnych rzeczy.
Rozwiązanie dla pochodzi z niezbędnego warunku pierwszego rzędu: co daje . Ale czy to wystarczy? Oznacza to, że rozwiązanie jest globalnym minimum tylko wtedy, gdy jest ściśle wypukły. Można to wykazać jako prawdę.
Innym sposobem spojrzenia na problem jest dostrzeżenie równoważności między i ograniczone do . OLS oznacza Zwyczajne Najmniejsze kwadraty. Z tej perspektywy to tylko funkcja Lagrangiana używana do znajdowania globalnych minimów wypukłej funkcji celu ograniczona funkcją wypukłą .
Dobre wyjaśnienie tych punktów i wyprowadzenie można znaleźć w tych drobnych notatkach z wykładów: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdf