Statystyki i duże zbiory danych regularization

2

Granica estymacji regresji grzbietu „wariancji jednostkowej”, gdy

Rozważ regresję kalenicową z dodatkowym ograniczeniem wymagającym, aby miał jednostkową sumę kwadratów (równoważnie wariancję jednostkową); w razie potrzeby można założyć, że ma również jednostkową sumę kwadratów:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Jaki jest limit β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^* kiedy λ→∞λ→∞\lambda\to\infty ? Oto kilka …

21 pca regularization ridge-regression partial-least-squares constrained-regression

2

zakres przedziałów ufności z regularnymi szacunkami

Załóżmy, że próbuję oszacować dużą liczbę parametrów na podstawie danych wielowymiarowych, używając pewnego rodzaju regularnych oszacowań. Regularizator wprowadza pewne szacunki do szacunków, ale nadal może być dobrym kompromisem, ponieważ zmniejszenie wariancji powinno więcej niż zrekompensować. Problem pojawia się, gdy chcę oszacować przedziały ufności (np. Używając aproksymacji Laplace'a lub ładowania początkowego). …

21 confidence-interval bias regularization ridge-regression coverage-probability

1

Dowód kurczenia się współczynników za pomocą regresji kalenicowej poprzez „rozkład widmowy”

Zrozumiałem, w jaki sposób regresja kalenicy zmniejsza geometrycznie współczynniki do zera. Co więcej, wiem, jak to udowodnić w specjalnym „przypadku ortonormalnym”, ale jestem zdezorientowany, jak to działa w przypadku ogólnym poprzez „rozkład widmowy”.

20 regression multiple-regression regularization ridge-regression svd

5

Czy nadal musimy dokonywać wyboru funkcji, korzystając z algorytmów regularyzacyjnych?

Mam jedno pytanie dotyczące potrzeby korzystania z metod wyboru funkcji (losowe wartości ważności cech lasów lub metody wyboru cech Univariate itp.) Przed uruchomieniem algorytmu uczenia statystycznego. Wiemy, że aby uniknąć przeregulowania, możemy wprowadzić karę regularyzacyjną dla wektorów masy. Więc jeśli chcę zrobić regresję liniową, mógłbym wprowadzić parametry L2 lub L1, …

20 regression machine-learning feature-selection lasso regularization

1

libsvm „osiąganie maksymalnej liczby iteracji” ostrzeżenie i wzajemna weryfikacja

Używam libsvm w trybie C-SVC z wielomianowym jądrem stopnia 2 i muszę trenować wiele SVM. Każdy zestaw treningowy ma 10 funkcji i 5000 wektorów. Podczas treningu otrzymuję to ostrzeżenie dla większości maszyn SVM, które trenuję: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 Czy ktoś mógłby wyjaśnić, …

20 machine-learning cross-validation svm regularization libsvm

5

Unikaj nadmiernego dopasowania w regresji: alternatywy dla regularyzacji

Regularyzacja w regresji (liniowa, logistyczna ...) jest najpopularniejszym sposobem ograniczenia nadmiernego dopasowania. Kiedy celem jest dokładność prognoz (nie wyjaśniając), czy istnieją jakieś dobre alternatywy dla regularyzacji, szczególnie odpowiednie dla dużych zbiorów danych (mi / miliardy obserwacji i miliony funkcji)?

19 regression regularization overfitting

2

Czy regularyzacja może być pomocna, jeśli interesuje nas tylko modelowanie, a nie prognozowanie?

Czy regularyzacja może być pomocna, jeśli jesteśmy zainteresowani jedynie szacunkiem (i interpretacją) parametrów modelu, a nie prognozowaniem lub prognozowaniem? Widzę, jak regularyzacja / walidacja krzyżowa jest niezwykle przydatna, jeśli Twoim celem jest dobre prognozowanie nowych danych. Ale co, jeśli robisz tradycyjną ekonomię, a wszystko, na czym ci zależy, to szacowanie …

19 cross-validation econometrics model-selection interpretation regularization

3

Związek między regresją kalenicową a regresją PCA

Pamiętam, że gdzieś w Internecie przeczytałem związek między regresją kalenicy (z regulacją ℓ2ℓ2\ell_2 ) a regresją PCA: podczas korzystania z regresji regulowanej z hiperparametrem , jeśli , to regresja jest równoważna usunięciu Zmienna PC o najmniejszej wartości własnej.ℓ2ℓ2\ell_2λλ\lambdaλ→0λ→0\lambda \to 0 Dlaczego to prawda? Czy to ma coś wspólnego z procedurą …

19 regression pca regularization ridge-regression

1

Czy istnieje bayesowska interpretacja regresji liniowej z równoczesną regularyzacją L1 i L2 (inaczej elastyczna siatka)?

Powszechnie wiadomo, że regresja liniowa z karą jest równoważna znalezieniu oszacowania MAP przy danym przed Gaussa współczynników. Podobnie użycie kary jest równoważne z użyciem rozkładu Laplace'a jako wcześniejszego.l2l2l^2l1l1l^1 Często zdarza się, że używa się ważonej kombinacji regularyzacji i . Czy możemy powiedzieć, że jest to równoważne wcześniejszemu rozkładowi współczynników (intuicyjnie …

17 regression bayesian regularization prior elastic-net

4

Jak w prosty sposób wyjaśnić regularyzację porzucania?

Jeśli masz pół strony do wyjaśnienia rezygnacji , jak byś postępował? Jakie jest uzasadnienie tej techniki?

17 neural-networks deep-learning regularization dropout

4

Co oznacza „stopień swobody” w sieciach neuronowych?

W książce Bishopa „Klasyfikacja wzorców i uczenie maszynowe” opisuje technikę regularyzacji w kontekście sieci neuronowych. Nie rozumiem jednak akapitu opisującego, że podczas procesu szkolenia liczba stopni swobody rośnie wraz ze złożonością modelu. Odpowiedni cytat jest następujący: Alternatywą dla regularyzacji jako sposobu kontrolowania efektywnej złożoności sieci jest procedura wczesnego zatrzymania. Szkolenie …

17 machine-learning neural-networks regularization degrees-of-freedom

2

Częstotliwość i priory

Robby McKilliam mówi w komentarzu do tego postu: Należy zauważyć, że z punktu widzenia częstych nie ma powodu, dla którego nie można włączyć wcześniejszej wiedzy do modelu. W tym sensie widok częstych jest prostszy, masz tylko model i niektóre dane. Nie ma potrzeby oddzielania wcześniejszych informacji od modelu Również tutaj …

17 bayesian prior regularization frequentist

2

Dlaczego Lasso lub ElasticNet działają lepiej niż Ridge, gdy funkcje są skorelowane

Mam zestaw 150 funkcji, a wiele z nich jest ze sobą bardzo skorelowanych. Moim celem jest przewidzenie wartości zmiennej dyskretnej, której zakres wynosi 1-8 . Mój rozmiar próbki wynosi 550 i używam 10-krotnej walidacji krzyżowej. AFAIK, wśród metod regularyzacji (Lasso, ElasticNet i Ridge), Ridge jest bardziej rygorystyczny w zakresie korelacji …

17 regression lasso regularization ridge-regression elastic-net

1

Dlaczego „zrelaksowane lasso” różni się od standardowego lasso?

Jeśli zaczniemy od zestawu danych , zastosujemy do niego Lasso i uzyskamy rozwiązanie β L , możemy ponownie zastosować Lasso do zbioru danych ( X S , Y ) , gdzie S jest zbiorem niezerowym indeksy β L , aby uzyskać rozwiązanie β R L , zwane „zrelaksowanym rozwiązaniem LASSO” …

16 regression optimization lasso regularization shrinkage

1

Jaki jest typowy zakres możliwych wartości parametru skurczu w regresji karanej?

W regresji lasso lub kalenicy należy określić parametr skurczu, często nazywany przez lub . Ta wartość jest często wybierana poprzez krzyżową weryfikację, sprawdzając kilka różnych wartości danych treningowych i sprawdzając, która daje najlepszą wartość, np. na danych testowych. Jaki zakres wartości należy sprawdzić? Czy to ?λλ\lambdaαα\alphaR2)R2)R^2( 0 , 1 )(0,1)(0,1)

16 regression lasso regularization ridge-regression penalized

Pytania otagowane jako regularization