Uwzględnienie dodatkowych ograniczeń (zwykle kara za złożoność) w procesie dopasowania modelu. Służy do zapobiegania przeuczeniu / zwiększenia dokładności predykcyjnej.
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
Kiedy przedstawiam studentom koncepcje, często fajnie jest powiedzieć im, skąd pochodzi terminologia (na przykład „regresja” to termin o ciekawym pochodzeniu). Nie byłem w stanie podnieść historii / tła terminu „regularyzacja” w statystycznym / uczeniu maszynowym. Jakie jest zatem pochodzenie terminu regularyzacja ?
Czytałem w wielu odnośnikach, że oszacowanie Lasso dla wektora parametru regresji jest równoważne trybowi tylnemu w którym poprzedni rozkład dla każdego jest podwójnym wykładniczym (znanym również jako rozkład Laplace'a).BBBBBBBiBiB_i Próbowałem to udowodnić, czy ktoś może dopracować szczegóły?
Ukończyłem kurs uczenia maszynowego Andrew Nga około rok temu, a teraz piszę moje badanie matematyki w szkole średniej na temat działania regresji logistycznej i technik optymalizacji wydajności. Jedną z tych technik jest oczywiście regularyzacja. Celem regularyzacji jest zapobieganie nadmiernemu dopasowaniu poprzez rozszerzenie funkcji kosztów o cel prostoty modelu. Możemy to …
Kiedyś słyszałem metodę podwójnego użycia lassa (jak podwójne lasso), w której wykonuje się lasso na oryginalnym zestawie zmiennych, powiedzmy S1, uzyskuje rzadki zbiór o nazwie S2, a następnie ponownie wykonuje lasso na zestawie S2, aby uzyskać zestaw S3 . Czy istnieje na to termin metodologiczny? Jakie są zalety podwójnego robienia …
Dla regresji Lasso załóżmy że najlepsze rozwiązanie (na przykład minimalny błąd testowania) wybiera k funkcji, więc \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 …
Załóżmy, że mam zestaw danych do nadzorowanego zadania klasyfikacji statystycznej, np. Za pomocą klasyfikatora Bayesa. Ten zestaw danych składa się z 20 elementów i chcę sprowadzić go do 2 elementów za pomocą technik redukcji wymiarów, takich jak analiza głównych składników (PCA) i / lub liniowa analiza dyskryminacyjna (LDA). Obie techniki …
Mam kilka pytań dotyczących kary za kalenicę w kontekście najmniejszych kwadratów: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Wyrażenie to sugeruje, że macierz kowariancji X jest zmniejszona w kierunku macierzy diagonalnej, co oznacza, że (zakładając, że zmienne są znormalizowane przed procedurą) korelacja między zmiennymi wejściowymi zostanie obniżona. Czy ta interpretacja …
Załóżmy, że używam regresji . Dlaczego, wybierając najlepsze głównych składników , model zachowuje moc predykcyjną na ?Y∼XY∼XY \sim XkkkXXXYYY Rozumiem, że z punktu widzenia redukcji wymiarów / wyboru cech, jeśli są wektorami własnymi macierzy kowariancji X z najwyższymi wartościami własnymi k , to Xv_1, Xv_2 ... Xv_k są pierwszymi k …
Zadano mi więc pytanie, na podstawie których oszacowano centralne miary L1 (tj. Lasso) i L2 (tj. Regresja grzbietu). Odpowiedź to L1 = mediana i L2 = średnia. Czy jest w tym coś intuicyjnego? A może trzeba to ustalić algebraicznie? Jeśli tak, jak mam to zrobić?
Rozumiem, jaką rolę odgrywa lambda w regresji sieci elastycznej. Rozumiem, dlaczego należy wybrać lambda.min, wartość lambda, która minimalizuje błąd zwalidowany krzyżowo. Moje pytanie brzmi: gdzie w literaturze statystycznej zaleca się stosowanie lambda.1se, czyli takiej wartości lambda, która minimalizuje błąd CV plus jeden błąd standardowy ? Nie mogę znaleźć formalnego cytatu, …
Przeglądałem literaturę na temat regularyzacji i często widzę akapity, które łączą regulację L2 z przełożeniem Gaussa i L1 z Laplace'em wyśrodkowanym na zero. Wiem, jak wyglądają te priory, ale nie rozumiem, jak to przekłada się na przykład na wagi w modelu liniowym. W L1, jeśli dobrze rozumiem, oczekujemy rzadkich rozwiązań, …
Niektóre funkcje karne i przybliżenia są dobrze zbadane, takie jak LASSO ( L1L1L_1 ) i Grzbiet ( L2L2L_2 ) i ich porównanie w regresji. Czytałem o karie za most, która jest karą uogólnioną ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma} . Porównaj to z LASSO, który ma γ=1γ=1\gamma = 1 , i Grzbietem, zγ=2γ=2\gamma = …
Czytałem Elementy uczenia statystycznego i nie mogłem zrozumieć, o co chodzi w rozdziale 3.7 „Skurcz i wybór wielu wyników”. Mówi o RRR (regresja o zmniejszonej rangi) i mogę jedynie zrozumieć, że założenie dotyczy uogólnionego wielowymiarowego modelu liniowego, w którym współczynniki są nieznane (i należy je oszacować), ale wiadomo, że nie …
Chcę lepiej zrozumieć pakiety R Larsi Glmnetużywane do rozwiązania problemu Lasso: (dla zmiennych i próbek , patrz www.stanford.edu/~hastie/Papers/glmnet.pdf na stronie 3)m i n( β0β) ∈ Rp + 1[ 12)N.∑ja = 1N.( yja- β0- xT.jaβ)2)+ λ | |β| |l1]mjan(β0β)∈Rp+1[12)N.∑ja=1N.(yja-β0-xjaT.β)2)+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppN.N.N Dlatego zastosowałem je oba …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.