Uwzględnienie dodatkowych ograniczeń (zazwyczaj kara za złożoność) w procesie dopasowywania modelu. Służy do zapobiegania nadmiernemu dopasowaniu / zwiększania dokładności predykcyjnej.
Regresja grzbietu szacuje parametry w modelu liniowym według gdzie jest parametrem regularyzacji. Dobrze wiadomo, że często działa lepiej niż regresja OLS (z \ lambda = 0 ), gdy istnieje wiele skorelowanych predyktorów.Y = X β β λ = ( X ⊤ X + λ I ) - 1 X ⊤ …
Jeśli zaczniemy od zestawu danych , zastosujemy do niego Lasso i uzyskamy rozwiązanie β L , możemy ponownie zastosować Lasso do zbioru danych ( X S , Y ) , gdzie S jest zbiorem niezerowym indeksy β L , aby uzyskać rozwiązanie β R L , zwane „zrelaksowanym rozwiązaniem LASSO” …
Na tej stronie jest już post mówiący o tym samym problemie: Dlaczego działa skurcz? Ale mimo że odpowiedzi są popularne, nie sądzę, aby sedno pytania zostało naprawdę rozwiązane. Oczywiste jest, że wprowadzenie błędu systematycznego w estymacji powoduje zmniejszenie wariancji i może poprawić jakość estymacji. Jednak: 1) Dlaczego szkody wyrządzone przez …
Uwielbia mnie koncepcja kurczenia się Jamesa-Steina (tzn. Że nieliniowa funkcja pojedynczej obserwacji wektora prawdopodobnie niezależnych normalnych może być lepszym estymatorem średnich zmiennych losowych, gdzie „lepszy” jest mierzony przez błąd kwadratu ). Jednak nigdy nie widziałem tego w pracy stosowanej. Najwyraźniej nie jestem wystarczająco dobrze przeczytany. Czy są jakieś klasyczne przykłady, …
Czy są jakieś wyniki analityczne lub prace eksperymentalne dotyczące optymalnego wyboru współczynnika kary karnej ℓ1ℓ1\ell_1Przez „ optymalny” rozumiem parametr, który maksymalizuje prawdopodobieństwo wyboru najlepszego modelu lub minimalizuje oczekiwaną stratę. Pytam, ponieważ często niepraktyczne jest wybranie parametru za pomocą weryfikacji krzyżowej lub bootstrapu, albo z powodu dużej liczby przypadków problemu, albo …
Słowo „skurcz” jest często rzucane w niektórych kręgach. Ale co to jest skurcz, wydaje się, że nie ma jasnej definicji. Jeśli mam szereg czasowy (lub jakąkolwiek kolekcję obserwacji jakiegoś procesu), jakie są różne sposoby pomiaru pewnego rodzaju skurczu empirycznego w szeregu? Jakie są rodzaje teoretycznego skurczu, o których mogę mówić? …
Zou i in. „O„ stopniach swobody lasso ” (2007) pokazują, że liczba niezerowych współczynników jest obiektywnym i spójnym oszacowaniem dla stopni swobody lasso. Wydaje mi się to trochę sprzeczne z intuicją. Załóżmy, że mamy model regresji (gdzie zmienne mają średnią zerową) y= βx + ε .y=βx+ε.y=\beta x + \varepsilon. Załóżmy, …
Tymczasem studiuję LASSO ( operator najmniejszego bezwzględnego skurczu i operatora selekcji). Widzę, że optymalną wartość parametru regularyzacji można wybrać poprzez weryfikację krzyżową. Widzę również w regresji grzbietu i wielu metodach, które stosują regularyzację, możemy użyć CV, aby znaleźć optymalny parametr regularyzacji (mówiąc karę). Teraz moje pytanie dotyczy początkowych wartości górnej …
Załóżmy, że mam dwa estymatory i które są spójnymi estymatorami tego samego parametru i takie, że z w sensie psd. Zatem asymptotycznie \ widehat {\ beta} _1 jest bardziej wydajny niż \ widehat {\ beta} _2 . Te dwa estymatory oparte są na różnych funkcjach strat.βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), …
Każde stwierdzenie, które znajduję w estymatorze Jamesa-Steina zakłada, że oszacowane zmienne losowe mają tę samą wariancję (i jednostkę). Ale wszystkie te przykłady wspominają również, że estymator JS może być używany do szacowania ilości, nie mając ze sobą nic wspólnego. Przykład wikipedia jest prędkością światła, spożycie herbaty w Tajwanie i wagi …
Dla prostego przykładu załóżmy, że istnieją dwa modele regresji liniowej 1 Model posiada trzy czynniki prognostyczne, x1a, x2b, ix2c Model 2 ma trzy predyktory z modelu 1 i dwa dodatkowe predyktory x2aorazx2b Istnieje równanie regresji populacji, w którym wyjaśniona wariancja populacji wynosi ρ2(1)ρ(1)2\rho^2_{(1)} dla Modelu 1 i ρ2(2)ρ(2)2\rho^2_{(2)} dla Modelu …
Załóżmy, że mam dane podłużne postaci (Mam wiele obserwacji, to tylko forma jednego). Interesują mnie ograniczenia dotyczące . Nieograniczony jest równoważny z wzięciem z .Y =(Y1, ... ,Yjot) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYjot=αjot+∑ℓ = 1j - 1ϕℓ jYj - ℓ+εjotYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj …
Załóżmy, że mam sparowane obserwacje, takie jak dla . Niech i oznaczają od p największa obserwowana wartość . Jaka jest (warunkowa) dystrybucja ? (lub równoważnie z )Xi∼N(0,σ2x),Yi∼N(0,σ2y),Xi∼N(0,σx2),Yi∼N(0,σy2),X_i \sim \mathcal{N}\left(0,\sigma_x^2\right), Y_i \sim \mathcal{N}\left(0,\sigma_y^2\right),i=1,2,…,ni=1,2,…,ni=1,2,\ldots,nZi=Xi+Yi,Zi=Xi+Yi,Z_i = X_i + Y_i,ZijZijZ_{i_j}jjjZZZXijXijX_{i_j}YijYijY_{i_j} To znaczy, jaki jest rozkład , pod że jest tą największą spośród obserwowanych wartości …
Jestem zdezorientowany co do analizy permutacji przy wyborze funkcji w kontekście regresji logistycznej. Czy możesz podać jasne wyjaśnienie losowego testu permutacji i jak ma on zastosowanie do wyboru funkcji? Prawdopodobnie z dokładnym algorytmem i przykładami. Wreszcie, jak to porównać z innymi metodami skurczu, takimi jak Lasso lub LAR?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.