Uwzględnienie dodatkowych ograniczeń (zwykle kara za złożoność) w procesie dopasowania modelu. Służy do zapobiegania przeuczeniu / zwiększenia dokładności predykcyjnej.
Rozważ regresję kalenicową z dodatkowym ograniczeniem wymagającym, aby miał jednostkową sumę kwadratów (równoważnie wariancję jednostkową); w razie potrzeby można założyć, że ma również jednostkową sumę kwadratów:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=argmin{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Jaki jest limit β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^* kiedy λ→∞λ→∞\lambda\to\infty ? Oto kilka …
Załóżmy, że próbuję oszacować dużą liczbę parametrów na podstawie danych wielowymiarowych, używając pewnego rodzaju regularnych oszacowań. Regularizator wprowadza pewne szacunki do szacunków, ale nadal może być dobrym kompromisem, ponieważ zmniejszenie wariancji powinno więcej niż zrekompensować. Problem pojawia się, gdy chcę oszacować przedziały ufności (np. Używając aproksymacji Laplace'a lub ładowania początkowego). …
Zrozumiałem, w jaki sposób regresja kalenicy zmniejsza geometrycznie współczynniki do zera. Co więcej, wiem, jak to udowodnić w specjalnym „przypadku ortonormalnym”, ale jestem zdezorientowany, jak to działa w przypadku ogólnym poprzez „rozkład widmowy”.
Mam jedno pytanie dotyczące potrzeby korzystania z metod wyboru funkcji (losowe wartości ważności cech lasów lub metody wyboru cech Univariate itp.) Przed uruchomieniem algorytmu uczenia statystycznego. Wiemy, że aby uniknąć przeregulowania, możemy wprowadzić karę regularyzacyjną dla wektorów masy. Więc jeśli chcę zrobić regresję liniową, mógłbym wprowadzić parametry L2 lub L1, …
Używam libsvm w trybie C-SVC z wielomianowym jądrem stopnia 2 i muszę trenować wiele SVM. Każdy zestaw treningowy ma 10 funkcji i 5000 wektorów. Podczas treningu otrzymuję to ostrzeżenie dla większości maszyn SVM, które trenuję: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 Czy ktoś mógłby wyjaśnić, …
Regularyzacja w regresji (liniowa, logistyczna ...) jest najpopularniejszym sposobem ograniczenia nadmiernego dopasowania. Kiedy celem jest dokładność prognoz (nie wyjaśniając), czy istnieją jakieś dobre alternatywy dla regularyzacji, szczególnie odpowiednie dla dużych zbiorów danych (mi / miliardy obserwacji i miliony funkcji)?
Czy regularyzacja może być pomocna, jeśli jesteśmy zainteresowani jedynie szacunkiem (i interpretacją) parametrów modelu, a nie prognozowaniem lub prognozowaniem? Widzę, jak regularyzacja / walidacja krzyżowa jest niezwykle przydatna, jeśli Twoim celem jest dobre prognozowanie nowych danych. Ale co, jeśli robisz tradycyjną ekonomię, a wszystko, na czym ci zależy, to szacowanie …
Pamiętam, że gdzieś w Internecie przeczytałem związek między regresją kalenicy (z regulacją ℓ2ℓ2\ell_2 ) a regresją PCA: podczas korzystania z regresji regulowanej z hiperparametrem , jeśli , to regresja jest równoważna usunięciu Zmienna PC o najmniejszej wartości własnej.ℓ2ℓ2\ell_2λλ\lambdaλ→0λ→0\lambda \to 0 Dlaczego to prawda? Czy to ma coś wspólnego z procedurą …
Powszechnie wiadomo, że regresja liniowa z karą jest równoważna znalezieniu oszacowania MAP przy danym przed Gaussa współczynników. Podobnie użycie kary jest równoważne z użyciem rozkładu Laplace'a jako wcześniejszego.l2l2l^2l1l1l^1 Często zdarza się, że używa się ważonej kombinacji regularyzacji i . Czy możemy powiedzieć, że jest to równoważne wcześniejszemu rozkładowi współczynników (intuicyjnie …
W książce Bishopa „Klasyfikacja wzorców i uczenie maszynowe” opisuje technikę regularyzacji w kontekście sieci neuronowych. Nie rozumiem jednak akapitu opisującego, że podczas procesu szkolenia liczba stopni swobody rośnie wraz ze złożonością modelu. Odpowiedni cytat jest następujący: Alternatywą dla regularyzacji jako sposobu kontrolowania efektywnej złożoności sieci jest procedura wczesnego zatrzymania. Szkolenie …
Robby McKilliam mówi w komentarzu do tego postu: Należy zauważyć, że z punktu widzenia częstych nie ma powodu, dla którego nie można włączyć wcześniejszej wiedzy do modelu. W tym sensie widok częstych jest prostszy, masz tylko model i niektóre dane. Nie ma potrzeby oddzielania wcześniejszych informacji od modelu Również tutaj …
Mam zestaw 150 funkcji, a wiele z nich jest ze sobą bardzo skorelowanych. Moim celem jest przewidzenie wartości zmiennej dyskretnej, której zakres wynosi 1-8 . Mój rozmiar próbki wynosi 550 i używam 10-krotnej walidacji krzyżowej. AFAIK, wśród metod regularyzacji (Lasso, ElasticNet i Ridge), Ridge jest bardziej rygorystyczny w zakresie korelacji …
Jeśli zaczniemy od zestawu danych , zastosujemy do niego Lasso i uzyskamy rozwiązanie β L , możemy ponownie zastosować Lasso do zbioru danych ( X S , Y ) , gdzie S jest zbiorem niezerowym indeksy β L , aby uzyskać rozwiązanie β R L , zwane „zrelaksowanym rozwiązaniem LASSO” …
W regresji lasso lub kalenicy należy określić parametr skurczu, często nazywany przez lub . Ta wartość jest często wybierana poprzez krzyżową weryfikację, sprawdzając kilka różnych wartości danych treningowych i sprawdzając, która daje najlepszą wartość, np. na danych testowych. Jaki zakres wartości należy sprawdzić? Czy to ?λλ\lambdaαα\alphaR2)R2)R^2( 0 , 1 )(0,1)(0,1)
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.