Słyszałem, że regresję grzbietu można wyprowadzić jako średnią rozkładu z tyłu, jeśli uprzednio zostanie odpowiednio wybrany. Czy intuicja, że ograniczenia określone przez współczynniki regresji przez wcześniejsze (np. Standardowe rozkłady normalne około 0) są identyczne / zastępuje karę ustawioną na kwadrat wielkości współczynników? Czy przeor musi mieć charakter gaussowski, aby zachować …
Czytałem najpopularniejsze książki w nauce statystycznej 1- Elementy uczenia statystycznego. 2- Wprowadzenie do uczenia statystycznego . Obaj wspominają, że regresja kalenicy ma dwie równoważne formuły. Czy istnieje zrozumiały matematyczny dowód tego wyniku? Przeszedłem również przez Cross Validated , ale nie mogę znaleźć tam konkretnego dowodu. Ponadto, czy LASSO będzie korzystać …
Kiedy wykonujesz regresję grzbietu, jak interpretujesz współczynniki, które kończą się powyżej odpowiadających im współczynników pod co najmniej kwadratami (dla niektórych wartości )? Czy regresja kalenicy nie ma monotonicznie zmniejszać współczynników?λλ\lambda W powiązanej uwadze, w jaki sposób interpretuje się współczynnik, którego znak zmienia się podczas regresji kalenicy (tj. Ślad kalenicy przecina …
W regresji grzbietu funkcją celu, którą należy zminimalizować, jest:RSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. Czy można to zoptymalizować za pomocą metody mnożnika Lagrange'a? Czy jest to proste różnicowanie?
Ogólnie rozumiem, że AIC zajmuje się kompromisem między dobrem dopasowania modelu a złożonością modelu. A jado= 2 k - 2 l n ( L )AIC=2k−2ln(L)AIC =2k -2ln(L) kkk = liczba parametrów w modelu L.LL = prawdopodobieństwo Bayesowskie kryterium informacyjne BIC jest ściśle powiązane z AIC. AIC karać liczbę parametrów słabiej …
Uczę się o regresji grzbietu i wiem, że regresja kalenicy działa lepiej w obecności wielokoliniowości. Zastanawiam się, dlaczego to prawda? Odpowiedź intuicyjna lub matematyczna byłaby satysfakcjonująca (oba typy odpowiedzi byłyby jeszcze bardziej satysfakcjonujące). Wiem też, że zawsze można uzyskać, ale jak dobrze regresja kalenicy działa w obecności dokładnej kolinearności (jedna …
Chcę obliczyć AICc modelu regresji grzbietu. Problemem jest liczba parametrów. W przypadku regresji liniowej większość osób sugeruje, że liczba parametrów jest równa liczbie szacowanych współczynników plus sigma (wariancja błędu). Jeśli chodzi o regresję grzbietu, czytam, że ślad macierzy kapelusza - stopień swobody (df) - jest po prostu używany jako liczba …
Czytałem, że regresję grzbietu można osiągnąć, po prostu dodając wiersze danych do oryginalnej macierzy danych, gdzie każdy wiersz jest konstruowany przy użyciu 0 dla zmiennych zależnych i pierwiastka kwadratowego kkk lub zero dla zmiennych niezależnych. Następnie dodaje się jeden dodatkowy wiersz dla każdej niezależnej zmiennej. Zastanawiałem się, czy można uzyskać …
Według odniesień Księga 1 , Księga 2 i papier . Wspomniano, że istnieje równoważność między regresją regulowaną (Ridge, LASSO i Elastic Net) a ich formułami ograniczeń. Patrzyłem również na Cross Validated 1 i Cross Validated 2 , ale nie widzę wyraźnej odpowiedzi pokazującej, że równoważność lub logika. Moje pytanie brzmi …
Szukam literatury na temat negatywnej regresji kalenicy . W skrócie, jest to uogólnienie regresji liniowej grzbiet wykluczających λλ\lambda we wzorze β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Przypadek pozytywny ma ładną teorię: jako funkcję straty, jako ograniczenie, jako wcześniejsze Bayesa ... ale czuję się zagubiony w wersji negatywnej …
Mam już pojęcie o zaletach i wadach regresji grzbietu i LASSO. W przypadku LASSO kara karna L1 da rzadki wektor współczynnika, który można postrzegać jako metodę wyboru cech. Istnieją jednak pewne ograniczenia dotyczące LASSO. Jeśli funkcje mają wysoką korelację, LASSO wybierze tylko jedną z nich. Ponadto w przypadku problemów, w …
Ten post jest następujący: dlaczego oszacowanie grzbietu staje się lepsze niż OLS poprzez dodanie stałej do przekątnej? Oto moje pytanie: O ile mi wiadomo, w regularyzacji grzbietu stosuje się -norm (odległość euklidesowa). Ale dlaczego używamy kwadratu tej normy? (bezpośrednie zastosowanie dałoby pierwiastek kwadratowy z sumy beta kwadratu).ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 Dla porównania, nie …
Korzystam z modelu regresji zarówno z Lasso, jak i Ridge'em (aby przewidzieć dyskretną zmienną wyniku w zakresie od 0-5). Przed uruchomieniem modelu używam SelectKBestmetody scikit-learnzmniejszenia zestawu funkcji z 250 do 25 . Bez wstępnego wyboru funkcji, zarówno Lasso, jak i Ridge dają niższe wyniki dokładności [co może wynikać z małej …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.