Pytania otagowane jako penalized

3
LASSO z warunkami interakcji - czy jest w porządku, jeśli główne efekty zostaną zmniejszone do zera?
Regresja LASSO zmniejsza współczynniki do zera, zapewniając w ten sposób efektywny wybór modelu. Uważam, że w moich danych występują znaczące interakcje między zmiennymi nominalnymi i ciągłymi zmiennymi towarzyszącymi. Jednak niekoniecznie „główne efekty” prawdziwego modelu są znaczące (niezerowe). Oczywiście tego nie wiem, ponieważ prawdziwy model jest nieznany. Moim celem jest znalezienie …

2
KKT kontra nieograniczone sformułowanie regresji lasso
Regresja penalizowana przez L1 (aka lasso) jest prezentowana w dwóch formulacjach. Niech dwie funkcje celu to Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. Następnie dwie różne formulacje to argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 zastrzeżeniem ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, i równoważnie argminβQ2.argminβQ2. \text{argmin}_\beta \; Q_2. …

1
Jaki jest typowy zakres możliwych wartości parametru skurczu w regresji karanej?
W regresji lasso lub kalenicy należy określić parametr skurczu, często nazywany przez lub . Ta wartość jest często wybierana poprzez krzyżową weryfikację, sprawdzając kilka różnych wartości danych treningowych i sprawdzając, która daje najlepszą wartość, np. na danych testowych. Jaki zakres wartości należy sprawdzić? Czy to ?λλ\lambdaαα\alphaR2)R2)R^2( 0 , 1 )(0,1)(0,1)


1
Bayesowski kolec i płyta kontra metody karane
Czytam slajdy Stevena Scotta o pakiecie BSTS R. (Znajdziesz je tutaj: slajdy ). W pewnym momencie, mówiąc o włączeniu wielu regresorów do strukturalnego modelu szeregów czasowych, wprowadza on priory wartości szczytowej współczynnika regresji i mówi, że są one lepsze w porównaniu z metodami karanymi. Scott mówi, odwołując się do przykładu …

2
Jeśli skurcz jest zastosowany w sprytny sposób, czy zawsze działa lepiej dla bardziej wydajnych estymatorów?
Załóżmy, że mam dwa estymatory i które są spójnymi estymatorami tego samego parametru i takie, że z w sensie psd. Zatem asymptotycznie \ widehat {\ beta} _1 jest bardziej wydajny niż \ widehat {\ beta} _2 . Te dwa estymatory oparte są na różnych funkcjach strat.βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), …


1
Który model głębokiego uczenia może klasyfikować kategorie, które nie wykluczają się wzajemnie
Przykłady: w opisie stanowiska mam zdanie: „Starszy inżynier Java w Wielkiej Brytanii”. Chcę użyć modelu głębokiego uczenia się, aby przewidzieć go jako 2 kategorie: English i IT jobs. Jeśli użyję tradycyjnego modelu klasyfikacji, może on przewidzieć tylko 1 etykietę z softmaxfunkcją na ostatniej warstwie. Dlatego mogę użyć 2 modelowych sieci …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
Jak Glmnet radzi sobie z nadmierną dyspersją?
Mam pytanie dotyczące sposobu modelowania tekstu w oparciu o dane zliczania, w szczególności jak mogę wykorzystać tę lassotechnikę do ograniczenia funkcji. Powiedzmy, że mam N artykułów online i liczbę odsłon dla każdego artykułu. Wyodrębniłem 1-gram i 2-gram dla każdego artykułu i chciałem przeprowadzić regresję w stosunku do 1,2-gram. Ponieważ cechy …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.