Pytania otagowane jako regularization

Uwzględnienie dodatkowych ograniczeń (zwykle kara za złożoność) w procesie dopasowania modelu. Służy do zapobiegania przeuczeniu / zwiększenia dokładności predykcyjnej.


1
Jakiej metody wielokrotnego porównania użyć w modelu Lmer: lsmeans czy glht?
Analizuję zestaw danych przy użyciu modelu efektów mieszanych z jednym ustalonym efektem (warunkiem) i dwoma efektami losowymi (uczestnik ze względu na projekt i parę wewnątrz przedmiotu). Model ten został wygenerowany z lme4pakietu: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Następnie wykonałem test współczynnika wiarygodności tego modelu względem modelu bez ustalonego efektu (warunku) i mam znaczącą różnicę. …

2
Dlaczego utrata normy L2 ma unikalne rozwiązanie, a utrata normy L1 ma prawdopodobnie wiele rozwiązań?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ Jeśli spojrzysz na górę tego postu, pisarz wspomina, że ​​norma L2 ma unikalne rozwiązanie, a norma L1 ma prawdopodobnie wiele rozwiązań. Rozumiem to w kategoriach regularyzacji, ale nie w kategoriach użycia normy L1 lub normy L2 w funkcji straty. Jeśli spojrzysz na wykresy funkcji skalarnej x (x ^ 2 …


1
Regularyzacja modeli ARIMA
Zdaję sobie sprawę z rodzaju regularyzacji typu LASSO, grzbietu i siatki elastycznej w modelach regresji liniowej. Pytanie: Czy ten (lub podobny) rodzaj oszacowania podlegającego sankcji można zastosować do modelowania ARIMA (z niepustą częścią MA)? Przy budowaniu modeli ARIMA wydaje się, że zwykle bierze się pod uwagę wstępnie wybraną kolejność maksymalnego …

4
Dowód równoważnych wzorów regresji kalenicowej
Czytałem najpopularniejsze książki w nauce statystycznej 1- Elementy uczenia statystycznego. 2- Wprowadzenie do uczenia statystycznego . Obaj wspominają, że regresja kalenicy ma dwie równoważne formuły. Czy istnieje zrozumiały matematyczny dowód tego wyniku? Przeszedłem również przez Cross Validated , ale nie mogę znaleźć tam konkretnego dowodu. Ponadto, czy LASSO będzie korzystać …

3
Regularyzacja i skalowanie funkcji w nauczaniu online?
Powiedzmy, że mam klasyfikator regresji logistycznej. Podczas normalnego uczenia wsadowego stosuję termin regulizujący, aby zapobiec nadmiernemu dopasowaniu i utrzymać moją wagę na niskim poziomie. Normalizowałbym również i skalował moje funkcje. W ustawieniach do nauki online otrzymuję ciągły strumień danych. Z każdym przykładem wykonuję aktualizację spadku gradientu, a następnie ją odrzucam. …


1
Jaki jest najmniejszy
Zdefiniuj oszacowanie lasso gdzie i ^ {th} wiersz x_i \ in \ mathbb {R} ^ p macierzy projektowej X \ in \ mathbb {R} ^ {n \ times p} jest wektorem zmiennych towarzyszących dla wyjaśnienia odpowiedzi stochastycznej y_i (dla i = 1, \ kropki n ).β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} …


1
Uregulowana bayesowska regresja logistyczna w JAGS
Istnieje kilka prac matematycznych opisujących lasso bayesowskie, ale chcę przetestować poprawny kod JAGS, którego mogę użyć. Czy ktoś może opublikować próbkę kodu BŁĘDY / JAGS, który implementuje regulowaną regresję logistyczną? Każdy schemat (L1, L2, Elasticnet) byłby świetny, ale preferowany jest Lasso. Zastanawiam się także, czy istnieją ciekawe alternatywne strategie wdrażania.

4
Norms - Co jest specjalnego w ?
normą jest unikalny (przynajmniej częściowo), ponieważ znajduje się na granicy między uwypuklony i wypukłe. normą jest „najbardziej rzadki” norma wypukły (prawda?). p = 1 L 1L1L1L_1p=1p=1p=1L1L1L_1 Rozumiem, że norma euklidesowa ma korzenie w geometrii i ma jasną interpretację, gdy wymiary mają te same jednostki. Ale nie rozumiem, dlaczego jest stosowany …

1
Rozwiązanie formy zamkniętej dla problemu lasso, gdy macierz danych jest ukośna
nazwa operatora {diag}}\newcommand{\diag}{\operatorname{diag}} Mamy problem: minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right), przy założeniu, że: ∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Czy w tym przypadku istnieje rozwiązanie w formie zamkniętej? Mam to: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), więc myślę, że odpowiedź brzmi : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\}, dla yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2} , ale nie jestem pewien.

1
Zapobieganie przeuczeniu LSTM w małym zestawie danych
Modeluję 15000 tweetów do prognozowania nastrojów za pomocą jednowarstwowej LSTM ze 128 ukrytymi jednostkami za pomocą reprezentacji podobnej do word2vec o 80 wymiarach. Dostaję dokładność zniżania (38% losowo = 20%) po 1 epoce. Więcej treningów powoduje, że dokładność walidacji zaczyna spadać, gdy dokładność treningu zaczyna się wspinać - wyraźny znak …

1
Rozkład wariancji odchylenia
W sekcji 3.2 Rozpoznawania wzorców i uczenia maszynowego Bishopa omawia dekompozycję wariancji odchylenia, stwierdzając, że dla funkcji straty kwadratowej oczekiwana strata może zostać rozłożona na wartość kwadratową błędu (która opisuje, jak daleko średnie prognozy są od prawdziwej model), termin wariancji (który opisuje rozkład prognoz wokół średniej) i termin szumu (który …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.