Pytania otagowane jako shrinkage

Uwzględnienie dodatkowych ograniczeń (zazwyczaj kara za złożoność) w procesie dopasowywania modelu. Służy do zapobiegania nadmiernemu dopasowaniu / zwiększania dokładności predykcyjnej.


5
Ujednolicony pogląd na kurczenie się: jaka jest relacja (jeśli występuje) między paradoksem Steina, regresją grzbietu i efektami losowymi w modelach mieszanych?
Rozważ następujące trzy zjawiska. Paradoks Steina: biorąc pod uwagę niektóre dane z wielowymiarowego rozkładu normalnego w Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 , średnia próbki nie jest bardzo dobrym estymatorem prawdziwej średniej. Można uzyskać oszacowanie z niższym średnim błędem do kwadratu, jeśli zmniejsza się wszystkie współrzędne średniej próbki w kierunku zera …

5
Jaki problem rozwiązują metody skurczu?
Sezon wakacyjny dał mi możliwość zwinięcia się przy kominku dzięki elementom statystycznego uczenia się . Z perspektywy (częstej) ekonometrii mam problem z uchwyceniem zastosowania metod skurczu, takich jak regresja grzbietu, lasso i regresja najmniejszego kąta (LAR). Zazwyczaj interesują mnie same oszacowania parametrów i osiągnięcie bezstronności lub przynajmniej spójności. Metody skurczowe …

3
Dlaczego ocena grzbietu staje się lepsza niż OLS poprzez dodanie stałej do przekątnej?
Rozumiem, że oszacowanie regresji grzbietu to która minimalizuje resztkową sumę kwadratu i kara za rozmiarββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Jednak nie do końca rozumiem znaczenie faktu, że βridgeβridge\beta_\text{ridge} różni się od βOLSβOLS\beta_\text{OLS} , dodając jedynie małą stałą do przekątnej X′XX′XX'X . W …

2
Dlaczego skurcz działa?
W celu rozwiązania problemów związanych z wyborem modelu, szereg metod (LASSO, regresja kalenicy itp.) Zmniejszy współczynniki zmiennych predykcyjnych w kierunku zera. Szukam intuicyjnego wyjaśnienia, dlaczego poprawia to zdolność przewidywania. Jeśli prawdziwy efekt zmiennej był w rzeczywistości bardzo duży, dlaczego skurczenie parametru nie spowoduje gorszej prognozy?

6
Czy regresja kalenicy jest bezużyteczna w dużych wymiarach ( )? W jaki sposób OLS może się nie dopasowywać?
Rozważ dobry stary problem regresji z predyktorami i wielkością próby . Zazwyczaj mądrość jest taka, że ​​estymator OLS będzie nadrzędny i generalnie będzie lepszy niż estymator regresji grzbietu:Standardowe jest stosowanie weryfikacji krzyżowej w celu znalezienia optymalnego parametru regularyzacji . Tutaj używam 10-krotnego CV. Aktualizacja wyjaśnienia: gdy , przez „estymator OLS” …


2
Czy normalizacja przed Lasso jest naprawdę konieczna?
Przeczytałem trzy główne powody standaryzacji zmiennych przed czymś takim jak Lassoregresja: 1) Interpretowalność współczynników. 2) Możliwość uszeregowania znaczenia współczynnika według względnej wielkości oszacowań współczynnika skurczu. 3) Nie ma potrzeby przechwytywania. Ale zastanawiam się nad najważniejszą kwestią. Czy mamy powody sądzić, że standaryzacja poprawiłaby generalizację modelu poza próbą? Nie obchodzi mnie …

1
Dlaczego glmnet używa „naiwnej” elastycznej siatki z oryginalnego papieru Zou & Hastie?
Oryginalny papier elastycznej siatki Zou & Hastie (2005) Regularyzacja i wybór zmiennych za pomocą elastycznej siatki wprowadzono funkcję elastycznej utraty siatki dla regresji liniowej (tutaj zakładam, że wszystkie zmienne są wyśrodkowane i skalowane do wariancji jednostkowej): ale nazwał to „naiwną elastyczną siecią”. Twierdzili, że wykonuje podwójny skurcz (lasso i grzbiet), …


3
LASSO z warunkami interakcji - czy jest w porządku, jeśli główne efekty zostaną zmniejszone do zera?
Regresja LASSO zmniejsza współczynniki do zera, zapewniając w ten sposób efektywny wybór modelu. Uważam, że w moich danych występują znaczące interakcje między zmiennymi nominalnymi i ciągłymi zmiennymi towarzyszącymi. Jednak niekoniecznie „główne efekty” prawdziwego modelu są znaczące (niezerowe). Oczywiście tego nie wiem, ponieważ prawdziwy model jest nieznany. Moim celem jest znalezienie …


4
Jakie są prawidłowe wartości precyzji i przywołania w przypadkach krawędzi?
Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam test statystyczny, w którym muszę …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
Dlaczego estymator Jamesa-Steina nazywany jest estymatorem „skurczu”?
Czytałem o estymatorze Jamesa-Steina. W tych uwagach jest zdefiniowany jako θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X Przeczytałem dowód, ale nie rozumiem następującego oświadczenia: Geometrycznie estymator Jamesa-Steina zmniejsza każdy składnik kierunku początku ...XXX Co dokładnie oznacza „zmniejsza każdy składnik XXX kierunku źródła”? Myślałem o czymś takim jak ∥θ^−0∥2&lt;∥X−0∥2,‖θ^−0‖2&lt;‖X−0‖2,\|\hat{\theta} - 0\|^2 < \|X - …

2
James-Stein Estymator: Jak Efron i Morris oblicz
Mam pytanie dotyczące obliczania współczynnika James-Stein Kurczenie w 1977 Scientific American papierze Bradley Efron i Carl Morris, "Paradox Steina w Statistics" . Zebrałem dane dla graczy baseballowych i jest podany poniżej: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 Berry, 0.311, 0.273 Spencer, …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.