Jestem inżynierem oprogramowania uczącym się uczenia maszynowego, szczególnie poprzez kursy uczenia maszynowego Andrew Ng . Badając regresję liniową z regularyzacją , znalazłem terminy, które są mylące: Regresja z regularyzacją L1 lub regularyzacją L2 LASSO Regresja kalenicy Więc moje pytania: Czy regresja z regularyzacją L1 jest dokładnie taka sama jak LASSO? …
Jak porównują metody regulowania grzbietów, LASSO i elasticnetu? Jakie są ich zalety i wady? Doceniony zostanie również każdy dobry artykuł techniczny lub notatki z wykładu.
Uwaga: Wiem, że L1 ma właściwość wyboru funkcji. Próbuję zrozumieć, który wybrać, gdy wybór funkcji jest całkowicie nieistotny. Jak zdecydować, której regularyzacji (L1 lub L2) użyć? Jakie są zalety i wady każdej z regulacji L1 / L2? Czy zaleca się najpierw dokonać wyboru funkcji za pomocą L1, a następnie zastosować …
Używam glmnet do obliczania oszacowań regresji grzbietu. Mam wyniki, które wzbudziły we mnie podejrzenia, ponieważ glmnet naprawdę robi to, co myślę. Aby to sprawdzić, napisałem prosty skrypt R, w którym porównuję wynik regresji grzbietu wykonanej przez rozwiązanie i ten w glmnet, różnica jest znacząca: n <- 1000 p. <- 100 …
Mam kilka pytań dotyczących kary za kalenicę w kontekście najmniejszych kwadratów: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Wyrażenie to sugeruje, że macierz kowariancji X jest zmniejszona w kierunku macierzy diagonalnej, co oznacza, że (zakładając, że zmienne są znormalizowane przed procedurą) korelacja między zmiennymi wejściowymi zostanie obniżona. Czy ta interpretacja …
Zadano mi więc pytanie, na podstawie których oszacowano centralne miary L1 (tj. Lasso) i L2 (tj. Regresja grzbietu). Odpowiedź to L1 = mediana i L2 = średnia. Czy jest w tym coś intuicyjnego? A może trzeba to ustalić algebraicznie? Jeśli tak, jak mam to zrobić?
Niektóre funkcje karne i przybliżenia są dobrze zbadane, takie jak LASSO ( L1L1L_1 ) i Grzbiet ( L2L2L_2 ) i ich porównanie w regresji. Czytałem o karie za most, która jest karą uogólnioną ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma} . Porównaj to z LASSO, który ma γ=1γ=1\gamma = 1 , i Grzbietem, zγ=2γ=2\gamma = …
Rozważ regresję kalenicową z dodatkowym ograniczeniem wymagającym, aby miał jednostkową sumę kwadratów (równoważnie wariancję jednostkową); w razie potrzeby można założyć, że ma również jednostkową sumę kwadratów:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=argmin{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Jaki jest limit β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^* kiedy λ→∞λ→∞\lambda\to\infty ? Oto kilka …
Załóżmy, że próbuję oszacować dużą liczbę parametrów na podstawie danych wielowymiarowych, używając pewnego rodzaju regularnych oszacowań. Regularizator wprowadza pewne szacunki do szacunków, ale nadal może być dobrym kompromisem, ponieważ zmniejszenie wariancji powinno więcej niż zrekompensować. Problem pojawia się, gdy chcę oszacować przedziały ufności (np. Używając aproksymacji Laplace'a lub ładowania początkowego). …
W przypadku modelu liniowego termin skurczu wynosi zawsze .P ( β )y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) Jaki jest powód, dla którego nie zmniejszamy terminu odchylenia (przechwytywania) ? Czy powinniśmy zmniejszyć termin obciążenia w modelach sieci neuronowej?β0β0\beta_0
Rozważmy standardowy model regresji wielokrotnej gdzie , więc normalność, homoscedastyczność i nieskorelacja błędów pozostają w mocy.Y= Xβ+ εY=Xβ+εY=X\beta+\varepsilonε ∼ N( 0 , σ2)jan)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) Załóżmy, że wykonujemy regresję grzbietu, dodając tę samą niewielką ilość do wszystkich elementów przekątnej :XXX βr i d g e= [ X′X+ k …
Zrozumiałem, w jaki sposób regresja kalenicy zmniejsza geometrycznie współczynniki do zera. Co więcej, wiem, jak to udowodnić w specjalnym „przypadku ortonormalnym”, ale jestem zdezorientowany, jak to działa w przypadku ogólnym poprzez „rozkład widmowy”.
Używam ukaranego pakietu R, aby uzyskać skurczone oszacowania współczynników dla zbioru danych, w którym mam dużo predyktorów i mało wiem, które z nich są ważne. Po wybraniu parametrów dostrajania L1 i L2 i jestem zadowolony z moich współczynników, czy istnieje statystycznie rozsądny sposób na podsumowanie dopasowania modelu z czymś w …
Pamiętam, że gdzieś w Internecie przeczytałem związek między regresją kalenicy (z regulacją ℓ2ℓ2\ell_2 ) a regresją PCA: podczas korzystania z regresji regulowanej z hiperparametrem , jeśli , to regresja jest równoważna usunięciu Zmienna PC o najmniejszej wartości własnej.ℓ2ℓ2\ell_2λλ\lambdaλ→0λ→0\lambda \to 0 Dlaczego to prawda? Czy to ma coś wspólnego z procedurą …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.