Pytania otagowane jako missing-data

Gdy dane przedstawiają brak informacji (braki), tj. Nie są kompletne. Dlatego ważne jest, aby wziąć pod uwagę tę funkcję podczas wykonywania analizy lub testu.

5
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
STL w szeregach czasowych z brakującymi wartościami do wykrywania anomalii
Próbuję wykryć anomalne wartości w szeregu czasowym danych klimatycznych z pewnymi brakującymi obserwacjami. Przeszukując sieć znalazłem wiele dostępnych podejść. Spośród nich rozkład stl wydaje się atrakcyjny w sensie usunięcia trendów i składników sezonowych i przestudiowania reszty. Czytając STL: sezonowy-Trend rozkładu procedury opartej na Lessów , stlwydaje się być elastyczni w …

2
80% brakujących danych w jednej zmiennej
W moich danych jest jedna zmienna, w której brakuje 80% danych. Brak danych z powodu nieistnienia (tj. Ile pożyczka bankowa jest winna firmie). Natknąłem się na artykuł, w którym wyjaśniono, że metoda dopasowania zmiennej zastępczej jest rozwiązaniem tego problemu. Czyli muszę przekształcić tę zmienną ciągłą w jakościową? Czy to jedyne …

3
Techniki postępowania z niekompletnymi / brakującymi danymi
Moje pytanie dotyczy technik radzenia sobie z niekompletnymi danymi podczas szkolenia / dopasowania / klasyfikacji klasyfikatora / modelu. Na przykład w zestawie danych zawierającym kilkaset wierszy, z których każdy ma powiedzmy pięć wymiarów i etykietę klasy jako ostatni element, większość punktów danych będzie wyglądać następująco: [0,74, 0,39, 0,14, 0,33, 0,34, …

3
Czy istnieje poważny problem z pomijaniem obserwacji z brakującymi wartościami podczas obliczania macierzy korelacji?
Mam ten ogromny zestaw danych z około 2500 zmiennymi i podobnymi 142 obserwacjami. Chcę uruchomić korelację między zmienną X a resztą zmiennych. Ale w wielu kolumnach brakuje wpisów. Próbowałem to zrobić w R za pomocą argumentu „pairwise-complete” ( use=pairwise.complete.obs) i uzyskałem wiązkę korelacji. Ale potem ktoś na StackOverflow opublikował link …

1
XGBoost może obsłużyć brakujące dane w fazie prognozowania
Niedawno sprawdziłem algorytm XGBoost i zauważyłem, że ten algorytm może obsłużyć brakujące dane (bez konieczności przypisywania) w fazie szkolenia. Zastanawiałem się, czy XGboost może obsłużyć brakujące dane (bez konieczności imputacji), gdy jest używany do prognozowania nowych obserwacji, czy konieczne jest przypisanie brakujących danych. Z góry dziękuję.



2
Jak obsługiwać nieistniejące (nie brakujące) dane?
Nigdy tak naprawdę nie znalazłem żadnego dobrego tekstu ani przykładów na temat obsługi „nieistniejących” danych dla danych wejściowych do dowolnego rodzaju klasyfikatora. Dużo czytałem o brakujących danych, ale co można zrobić z danymi, które nie mogą istnieć lub nie istnieją w odniesieniu do danych wejściowych na wielu odmianach. Rozumiem, że …

2
Prawdopodobieństwo, że ktoś polubi obraz
Mam następujący problem: - Mamy zestaw N osób - Mamy zestaw zdjęć K - Każda osoba ocenia pewną liczbę zdjęć. Osoba może polubić lub nie obraz (są to jedyne dwie możliwości). - Problem polega na tym, jak obliczyć prawdopodobieństwo, że dana osoba lubi określony obraz. Podam przykład przedstawiający moją intuicję. …

1
R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
Czy ważenie oparte na dokładności (tj. Wariancji odwrotnej) jest integralną częścią metaanalizy?
Czy ważenie precyzyjne ma kluczowe znaczenie dla metaanalizy? Borenstein i in. (2009) piszą, że aby metaanaliza była możliwa, konieczne jest jedynie: Badania podają oszacowanie punktowe, które można wyrazić jako pojedynczą liczbę. Odchylenie można obliczyć dla tego oszacowania punktowego. Nie jest od razu jasne, dlaczego (2) jest absolutnie niezbędny. Rzeczywiście wszystkie …


1
Dlaczego Anova () i drop1 () podają różne odpowiedzi dla GLMM?
Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
Brakujące wartości w zmiennej odpowiedzi w JAGS
Gelman i Hill (2006) mówią: W Bugs brakujące wyniki w regresji można łatwo rozwiązać, po prostu włączając wektor danych, NA i wszystkie. Błędy jawnie modelują zmienną wynikową, dlatego użycie tego modelu jest banalne, aby w efekcie przypisywać brakujące wartości przy każdej iteracji. Brzmi to jak prosty sposób na wykorzystanie JAGS …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.