Pytania otagowane jako regularization

Uwzględnienie dodatkowych ograniczeń (zwykle kara za złożoność) w procesie dopasowania modelu. Służy do zapobiegania przeuczeniu / zwiększenia dokładności predykcyjnej.

2
Granica estymacji regresji grzbietu „wariancji jednostkowej”, gdy
Rozważ regresję kalenicową z dodatkowym ograniczeniem wymagającym, aby miał jednostkową sumę kwadratów (równoważnie wariancję jednostkową); w razie potrzeby można założyć, że ma również jednostkową sumę kwadratów:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Jaki jest limit β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^* kiedy λ→∞λ→∞\lambda\to\infty ? Oto kilka …

2
zakres przedziałów ufności z regularnymi szacunkami
Załóżmy, że próbuję oszacować dużą liczbę parametrów na podstawie danych wielowymiarowych, używając pewnego rodzaju regularnych oszacowań. Regularizator wprowadza pewne szacunki do szacunków, ale nadal może być dobrym kompromisem, ponieważ zmniejszenie wariancji powinno więcej niż zrekompensować. Problem pojawia się, gdy chcę oszacować przedziały ufności (np. Używając aproksymacji Laplace'a lub ładowania początkowego). …


5
Czy nadal musimy dokonywać wyboru funkcji, korzystając z algorytmów regularyzacyjnych?
Mam jedno pytanie dotyczące potrzeby korzystania z metod wyboru funkcji (losowe wartości ważności cech lasów lub metody wyboru cech Univariate itp.) Przed uruchomieniem algorytmu uczenia statystycznego. Wiemy, że aby uniknąć przeregulowania, możemy wprowadzić karę regularyzacyjną dla wektorów masy. Więc jeśli chcę zrobić regresję liniową, mógłbym wprowadzić parametry L2 lub L1, …

1
libsvm „osiąganie maksymalnej liczby iteracji” ostrzeżenie i wzajemna weryfikacja
Używam libsvm w trybie C-SVC z wielomianowym jądrem stopnia 2 i muszę trenować wiele SVM. Każdy zestaw treningowy ma 10 funkcji i 5000 wektorów. Podczas treningu otrzymuję to ostrzeżenie dla większości maszyn SVM, które trenuję: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 Czy ktoś mógłby wyjaśnić, …


2
Czy regularyzacja może być pomocna, jeśli interesuje nas tylko modelowanie, a nie prognozowanie?
Czy regularyzacja może być pomocna, jeśli jesteśmy zainteresowani jedynie szacunkiem (i interpretacją) parametrów modelu, a nie prognozowaniem lub prognozowaniem? Widzę, jak regularyzacja / walidacja krzyżowa jest niezwykle przydatna, jeśli Twoim celem jest dobre prognozowanie nowych danych. Ale co, jeśli robisz tradycyjną ekonomię, a wszystko, na czym ci zależy, to szacowanie …

3
Związek między regresją kalenicową a regresją PCA
Pamiętam, że gdzieś w Internecie przeczytałem związek między regresją kalenicy (z regulacją ℓ2ℓ2\ell_2 ) a regresją PCA: podczas korzystania z regresji regulowanej z hiperparametrem , jeśli , to regresja jest równoważna usunięciu Zmienna PC o najmniejszej wartości własnej.ℓ2ℓ2\ell_2λλ\lambdaλ→0λ→0\lambda \to 0 Dlaczego to prawda? Czy to ma coś wspólnego z procedurą …

1
Czy istnieje bayesowska interpretacja regresji liniowej z równoczesną regularyzacją L1 i L2 (inaczej elastyczna siatka)?
Powszechnie wiadomo, że regresja liniowa z karą jest równoważna znalezieniu oszacowania MAP przy danym przed Gaussa współczynników. Podobnie użycie kary jest równoważne z użyciem rozkładu Laplace'a jako wcześniejszego.l2l2l^2l1l1l^1 Często zdarza się, że używa się ważonej kombinacji regularyzacji i . Czy możemy powiedzieć, że jest to równoważne wcześniejszemu rozkładowi współczynników (intuicyjnie …


4
Co oznacza „stopień swobody” w sieciach neuronowych?
W książce Bishopa „Klasyfikacja wzorców i uczenie maszynowe” opisuje technikę regularyzacji w kontekście sieci neuronowych. Nie rozumiem jednak akapitu opisującego, że podczas procesu szkolenia liczba stopni swobody rośnie wraz ze złożonością modelu. Odpowiedni cytat jest następujący: Alternatywą dla regularyzacji jako sposobu kontrolowania efektywnej złożoności sieci jest procedura wczesnego zatrzymania. Szkolenie …

2
Częstotliwość i priory
Robby McKilliam mówi w komentarzu do tego postu: Należy zauważyć, że z punktu widzenia częstych nie ma powodu, dla którego nie można włączyć wcześniejszej wiedzy do modelu. W tym sensie widok częstych jest prostszy, masz tylko model i niektóre dane. Nie ma potrzeby oddzielania wcześniejszych informacji od modelu Również tutaj …

2
Dlaczego Lasso lub ElasticNet działają lepiej niż Ridge, gdy funkcje są skorelowane
Mam zestaw 150 funkcji, a wiele z nich jest ze sobą bardzo skorelowanych. Moim celem jest przewidzenie wartości zmiennej dyskretnej, której zakres wynosi 1-8 . Mój rozmiar próbki wynosi 550 i używam 10-krotnej walidacji krzyżowej. AFAIK, wśród metod regularyzacji (Lasso, ElasticNet i Ridge), Ridge jest bardziej rygorystyczny w zakresie korelacji …


1
Jaki jest typowy zakres możliwych wartości parametru skurczu w regresji karanej?
W regresji lasso lub kalenicy należy określić parametr skurczu, często nazywany przez lub . Ta wartość jest często wybierana poprzez krzyżową weryfikację, sprawdzając kilka różnych wartości danych treningowych i sprawdzając, która daje najlepszą wartość, np. na danych testowych. Jaki zakres wartości należy sprawdzić? Czy to ?λλ\lambdaαα\alphaR2)R2)R^2( 0 , 1 )(0,1)(0,1)

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.