Pytania otagowane jako shrinkage

Uwzględnienie dodatkowych ograniczeń (zazwyczaj kara za złożoność) w procesie dopasowywania modelu. Służy do zapobiegania nadmiernemu dopasowaniu / zwiększania dokładności predykcyjnej.




5
Skurcz Jamesa-Steina „na wolności”?
Uwielbia mnie koncepcja kurczenia się Jamesa-Steina (tzn. Że nieliniowa funkcja pojedynczej obserwacji wektora prawdopodobnie niezależnych normalnych może być lepszym estymatorem średnich zmiennych losowych, gdzie „lepszy” jest mierzony przez błąd kwadratu ). Jednak nigdy nie widziałem tego w pracy stosowanej. Najwyraźniej nie jestem wystarczająco dobrze przeczytany. Czy są jakieś klasyczne przykłady, …

4
Optymalny wybór kar dla lasso
Czy są jakieś wyniki analityczne lub prace eksperymentalne dotyczące optymalnego wyboru współczynnika kary karnej ℓ1ℓ1\ell_1Przez „ optymalny” rozumiem parametr, który maksymalizuje prawdopodobieństwo wyboru najlepszego modelu lub minimalizuje oczekiwaną stratę. Pytam, ponieważ często niepraktyczne jest wybranie parametru za pomocą weryfikacji krzyżowej lub bootstrapu, albo z powodu dużej liczby przypadków problemu, albo …

2
Co to jest skurcz?
Słowo „skurcz” jest często rzucane w niektórych kręgach. Ale co to jest skurcz, wydaje się, że nie ma jasnej definicji. Jeśli mam szereg czasowy (lub jakąkolwiek kolekcję obserwacji jakiegoś procesu), jakie są różne sposoby pomiaru pewnego rodzaju skurczu empirycznego w szeregu? Jakie są rodzaje teoretycznego skurczu, o których mogę mówić? …

1
Intuicja dla stopni swobody LASSO
Zou i in. „O„ stopniach swobody lasso ” (2007) pokazują, że liczba niezerowych współczynników jest obiektywnym i spójnym oszacowaniem dla stopni swobody lasso. Wydaje mi się to trochę sprzeczne z intuicją. Załóżmy, że mamy model regresji (gdzie zmienne mają średnią zerową) y= βx + ε .y=βx+ε.y=\beta x + \varepsilon. Załóżmy, …

1
Wybór zakresu i gęstości siatki dla parametru regularyzacji w LASSO
Tymczasem studiuję LASSO ( operator najmniejszego bezwzględnego skurczu i operatora selekcji). Widzę, że optymalną wartość parametru regularyzacji można wybrać poprzez weryfikację krzyżową. Widzę również w regresji grzbietu i wielu metodach, które stosują regularyzację, możemy użyć CV, aby znaleźć optymalny parametr regularyzacji (mówiąc karę). Teraz moje pytanie dotyczy początkowych wartości górnej …

2
Jeśli skurcz jest zastosowany w sprytny sposób, czy zawsze działa lepiej dla bardziej wydajnych estymatorów?
Załóżmy, że mam dwa estymatory i które są spójnymi estymatorami tego samego parametru i takie, że z w sensie psd. Zatem asymptotycznie \ widehat {\ beta} _1 jest bardziej wydajny niż \ widehat {\ beta} _2 . Te dwa estymatory oparte są na różnych funkcjach strat.βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), …

1
James-Stein Estimator z nierównymi wariancjami
Każde stwierdzenie, które znajduję w estymatorze Jamesa-Steina zakłada, że ​​oszacowane zmienne losowe mają tę samą wariancję (i jednostkę). Ale wszystkie te przykłady wspominają również, że estymator JS może być używany do szacowania ilości, nie mając ze sobą nic wspólnego. Przykład wikipedia jest prędkością światła, spożycie herbaty w Tajwanie i wagi …

3
Jak uzyskać przedział ufności dla zmiany r-kwadratowej populacji
Dla prostego przykładu załóżmy, że istnieją dwa modele regresji liniowej 1 Model posiada trzy czynniki prognostyczne, x1a, x2b, ix2c Model 2 ma trzy predyktory z modelu 1 i dwa dodatkowe predyktory x2aorazx2b Istnieje równanie regresji populacji, w którym wyjaśniona wariancja populacji wynosi ρ2(1)ρ(1)2\rho^2_{(1)} dla Modelu 1 i ρ2(2)ρ(2)2\rho^2_{(2)} dla Modelu …

4
Lasso porządkuje opóźnienie?
Załóżmy, że mam dane podłużne postaci (Mam wiele obserwacji, to tylko forma jednego). Interesują mnie ograniczenia dotyczące . Nieograniczony jest równoważny z wzięciem z .Y =(Y1, ... ,Yjot) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYjot=αjot+∑ℓ = 1j - 1ϕℓ jYj - ℓ+εjotYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj …

2
Dystrybucja „niezmieszanych” części na podstawie kolejności mieszania
Załóżmy, że mam sparowane obserwacje, takie jak dla . Niech i oznaczają od p największa obserwowana wartość . Jaka jest (warunkowa) dystrybucja ? (lub równoważnie z )Xi∼N(0,σ2x),Yi∼N(0,σ2y),Xi∼N(0,σx2),Yi∼N(0,σy2),X_i \sim \mathcal{N}\left(0,\sigma_x^2\right), Y_i \sim \mathcal{N}\left(0,\sigma_y^2\right),i=1,2,…,ni=1,2,…,ni=1,2,\ldots,nZi=Xi+Yi,Zi=Xi+Yi,Z_i = X_i + Y_i,ZijZijZ_{i_j}jjjZZZXijXijX_{i_j}YijYijY_{i_j} To znaczy, jaki jest rozkład , pod że jest tą największą spośród obserwowanych wartości …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.