Pytania otagowane jako ridge-regression

Metoda regularyzacji modeli regresji, która zmniejsza współczynniki do zera.

2
Regresja grzbietowa - interpretacja bayesowska
Słyszałem, że regresję grzbietu można wyprowadzić jako średnią rozkładu z tyłu, jeśli uprzednio zostanie odpowiednio wybrany. Czy intuicja, że ​​ograniczenia określone przez współczynniki regresji przez wcześniejsze (np. Standardowe rozkłady normalne około 0) są identyczne / zastępuje karę ustawioną na kwadrat wielkości współczynników? Czy przeor musi mieć charakter gaussowski, aby zachować …

1
Relaksacja Lagrangian w kontekście regresji kalenicowej
W „Elementach uczenia statystycznego” (wydanie drugie), s. 63, autorzy podają następujące dwa sformułowania problemu regresji kalenicy: β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβ2j}β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβj2} \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\} i β^ridge=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2, subject to ∑j=1pβ2j≤t.β^ridge=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2, subject to ∑j=1pβj2≤t. \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 \text{, subject to } \sum_{j=1}^p \beta_j^2 \leq …

4
Dowód równoważnych wzorów regresji kalenicowej
Czytałem najpopularniejsze książki w nauce statystycznej 1- Elementy uczenia statystycznego. 2- Wprowadzenie do uczenia statystycznego . Obaj wspominają, że regresja kalenicy ma dwie równoważne formuły. Czy istnieje zrozumiały matematyczny dowód tego wyniku? Przeszedłem również przez Cross Validated , ale nie mogę znaleźć tam konkretnego dowodu. Ponadto, czy LASSO będzie korzystać …

1
Współczynniki regresji grzbietu, które są większe niż współczynniki OLS lub które zmieniają znak w zależności od
Kiedy wykonujesz regresję grzbietu, jak interpretujesz współczynniki, które kończą się powyżej odpowiadających im współczynników pod co najmniej kwadratami (dla niektórych wartości )? Czy regresja kalenicy nie ma monotonicznie zmniejszać współczynników?λλ\lambda W powiązanej uwadze, w jaki sposób interpretuje się współczynnik, którego znak zmienia się podczas regresji kalenicy (tj. Ślad kalenicy przecina …



1
Dlaczego regresja Ridge'a działa dobrze w obecności wielokoliniowości?
Uczę się o regresji grzbietu i wiem, że regresja kalenicy działa lepiej w obecności wielokoliniowości. Zastanawiam się, dlaczego to prawda? Odpowiedź intuicyjna lub matematyczna byłaby satysfakcjonująca (oba typy odpowiedzi byłyby jeszcze bardziej satysfakcjonujące). Wiem też, że zawsze można uzyskać, ale jak dobrze regresja kalenicy działa w obecności dokładnej kolinearności (jedna …

1
AIC regresji kalenicowej: stopnie swobody a liczba parametrów
Chcę obliczyć AICc modelu regresji grzbietu. Problemem jest liczba parametrów. W przypadku regresji liniowej większość osób sugeruje, że liczba parametrów jest równa liczbie szacowanych współczynników plus sigma (wariancja błędu). Jeśli chodzi o regresję grzbietu, czytam, że ślad macierzy kapelusza - stopień swobody (df) - jest po prostu używany jako liczba …


2
Ridge ukarał GLM za pomocą powiększania rzędów?
Czytałem, że regresję grzbietu można osiągnąć, po prostu dodając wiersze danych do oryginalnej macierzy danych, gdzie każdy wiersz jest konstruowany przy użyciu 0 dla zmiennych zależnych i pierwiastka kwadratowego kkk lub zero dla zmiennych niezależnych. Następnie dodaje się jeden dodatkowy wiersz dla każdej niezależnej zmiennej. Zastanawiałem się, czy można uzyskać …

2
Pokazuje równoważność
Według odniesień Księga 1 , Księga 2 i papier . Wspomniano, że istnieje równoważność między regresją regulowaną (Ridge, LASSO i Elastic Net) a ich formułami ograniczeń. Patrzyłem również na Cross Validated 1 i Cross Validated 2 , ale nie widzę wyraźnej odpowiedzi pokazującej, że równoważność lub logika. Moje pytanie brzmi …

1
Zrozumienie negatywnej regresji kalenicy
Szukam literatury na temat negatywnej regresji kalenicy . W skrócie, jest to uogólnienie regresji liniowej grzbiet wykluczających λλ\lambda we wzorze β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Przypadek pozytywny ma ładną teorię: jako funkcję straty, jako ograniczenie, jako wcześniejsze Bayesa ... ale czuję się zagubiony w wersji negatywnej …

2
Dlaczego regresja kalenicy nie może zapewnić lepszej interpretacji niż LASSO?
Mam już pojęcie o zaletach i wadach regresji grzbietu i LASSO. W przypadku LASSO kara karna L1 da rzadki wektor współczynnika, który można postrzegać jako metodę wyboru cech. Istnieją jednak pewne ograniczenia dotyczące LASSO. Jeśli funkcje mają wysoką korelację, LASSO wybierze tylko jedną z nich. Ponadto w przypadku problemów, w …

5
Normy Ridge i LASSO
Ten post jest następujący: dlaczego oszacowanie grzbietu staje się lepsze niż OLS poprzez dodanie stałej do przekątnej? Oto moje pytanie: O ile mi wiadomo, w regularyzacji grzbietu stosuje się -norm (odległość euklidesowa). Ale dlaczego używamy kwadratu tej normy? (bezpośrednie zastosowanie dałoby pierwiastek kwadratowy z sumy beta kwadratu).ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 Dla porównania, nie …

1
Jak interpretować wyniki, gdy zarówno grzbiet, jak i lasso oddzielnie działają dobrze, ale dają różne współczynniki
Korzystam z modelu regresji zarówno z Lasso, jak i Ridge'em (aby przewidzieć dyskretną zmienną wyniku w zakresie od 0-5). Przed uruchomieniem modelu używam SelectKBestmetody scikit-learnzmniejszenia zestawu funkcji z 250 do 25 . Bez wstępnego wyboru funkcji, zarówno Lasso, jak i Ridge dają niższe wyniki dokładności [co może wynikać z małej …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.