W regresji grzbietu funkcją celu, którą należy zminimalizować, jest:
Czy można to zoptymalizować za pomocą metody mnożnika Lagrange'a? Czy jest to proste różnicowanie?
W regresji grzbietu funkcją celu, którą należy zminimalizować, jest:
Czy można to zoptymalizować za pomocą metody mnożnika Lagrange'a? Czy jest to proste różnicowanie?
Odpowiedzi:
Istnieją dwa sformułowania dotyczące problemu kalenicy. Pierwszy to
z zastrzeżeniem
Ta formuła pokazuje ograniczenie wielkości współczynników regresji. Zwróć uwagę na to, co oznacza to ograniczenie; zmuszamy współczynniki do położenia się w kulce wokół początku o promieniu .
Drugi przepis to dokładnie twój problem
który może być postrzegany jako formuła mnożnika Largrange. Zauważ, że tutaj jest parametrem tuningowym, a jego większe wartości doprowadzą do większego skurczu. Możesz przystąpić do różnicowania wyrażenia w odniesieniu do i uzyskać dobrze znany estymator grzbietu
Te dwie formuły są całkowicie równoważne , ponieważ istnieje zgodność jeden do jednego między i .
Pozwól mi trochę rozwinąć. Wyobraź sobie, że jesteś w idealnym ortogonalnym przypadku, . Jest to bardzo uproszczona i nierealistyczna sytuacja, ale możemy dokładniej zbadać estymator, więc proszę o wyrozumiałość. Zastanów się, co dzieje się z równaniem (1). Estymator grzbietu zmniejsza się do
podobnie jak w przypadku ortogonalnym estymator OLS podaje . Patrząc na ten składnik teraz otrzymujemy
Zauważ, że teraz skurcz jest stały dla wszystkich współczynników. Może to nie mieć miejsca w ogólnym przypadku i rzeczywiście można wykazać, że skurcze będą się znacznie różnić, jeśli w macierzy występują różnice .
Wróćmy jednak do ograniczonego problemu optymalizacji. Przez teorię KKT , o konieczności warunek optymalności jest
więc albo lub (w tym przypadku mówimy, że ograniczenie jest wiążące). Jeśli nie ma kary i wróciliśmy do normalnej sytuacji OLS. Załóżmy zatem, że ograniczenie jest wiążące i znajdujemy się w drugiej sytuacji. Korzystając ze wzoru w (2), mamy
skąd otrzymujemy
poprzednio twierdzono, że istnieje relacja jeden do jednego. Oczekuję, że trudniej to ustalić w przypadku nieortogonalnym, ale wynik nie zmienia się.
Spójrz jeszcze raz na (2), a zobaczysz, że wciąż brakuje nam . Aby uzyskać jego optymalną wartość, możesz albo użyć weryfikacji krzyżowej, albo spojrzeć na ślad grzbietu. Druga metoda polega na zbudowaniu sekwencji w (0,1) i sprawdzeniu, jak zmieniają się szacunki. Następnie wybierz która je stabilizuje. Ta metoda została przy okazji zasugerowana w drugim z poniższych odnośników i jest najstarsza.
Bibliografia
Hoerl, Arthur E. i Robert W. Kennard. „Regresja Ridge'a: błędne oszacowanie problemów nieortogonalnych”. Technometrics 12.1 (1970): 55-67.
Hoerl, Arthur E. i Robert W. Kennard. „Regresja Ridge'a: zastosowania do nieortogonalnych problemów”. Technometrics 12.1 (1970): 69-82.
Moja książka Regression Modeling Strategies zagłębia się w wykorzystanie skutecznego AIC do wyboru . Wynika to z prawdopodobieństwa zaryzykowanego dziennika i efektywnego stopnia swobody, przy czym ten ostatni jest funkcją tego, o ile wariancje są zmniejszone przez karanie. Prezentacja na ten temat jest tutaj . Pakiet R znajduje która optymalizuje efektywny AIC, a także dopuszcza wiele parametrów kary (np. Jeden dla głównych efektów liniowych, jeden dla głównych efektów nieliniowych, jeden dla efektów interakcji liniowych i jeden dla efektów interakcji nieliniowych).rms
pentrace
Nie robię tego analitycznie, ale raczej numerycznie. Zazwyczaj rysuję RMSE vs. λ jako takie:
Rysunek 1. RMSE i stała λ lub alfa.