Pytania otagowane jako data-imputation

Odnosi się do ogólnej klasy metod używanych do „uzupełniania” brakujących danych. Metody stosowane w tym celu są zwykle związane z interpolacją (http://en.wikipedia.org/wiki/Interpolation) i wymagają założenia, dlaczego brakuje danych (np. „Brakujący losowo”)

3
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego
Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R caret i NA
Bardzo wolę dbać o jego zdolność do dostrajania parametrów i jednolity interfejs, ale zauważyłem, że zawsze wymaga kompletnych zestawów danych (tj. Bez NA), nawet jeśli zastosowany model „nagi” pozwala NA. Jest to bardzo uciążliwe, ponieważ należy stosować pracochłonne metody imputacji, które w pierwszej kolejności nie są konieczne. Jak można uniknąć …

4
Wpisywanie brakujących wartości dla PCA
Użyłem tej prcomp()funkcji do wykonania PCA (analiza głównego składnika) w R. Jednak w tej funkcji jest błąd, który na.actionpowoduje, że parametr nie działa. Poprosiłem o pomoc w stosie przepływu ; dwóch użytkowników zaoferowało dwa różne sposoby radzenia sobie z NAwartościami. Problem z obydwoma rozwiązaniami polega jednak na tym, że gdy …

3
Jak połączyć przedziały ufności dla komponentu wariancji modelu z efektami mieszanymi, gdy używana jest wielokrotna imputacja
Logiką wielokrotnej imputacji (MI) jest przypisywanie brakujących wartości nie jeden raz, ale kilka razy (zwykle M = 5) razy, co skutkuje M zakończonymi zestawami danych. M zakończonych zestawów danych jest następnie analizowanych metodami kompletnych danych, na podstawie których szacunki M i ich błędy standardowe są łączone przy użyciu wzorów Rubina …

5
Dodano szóstą opcję odpowiedzi („nie wiem”) do 5-punktowej skali Likerta. Czy dane zostały utracone?
Potrzebuję trochę pomocy w odzyskaniu danych z kwestionariusza. Jeden z moich kolegów zastosował kwestionariusz, ale nieumyślnie, zamiast skorzystać z oryginalnej 5-punktowej skali Likerta (zdecydowanie nie zgadzam się zdecydowanie), wstawił szóstą odpowiedź do skali. I, co gorsza, szósta opcja to… „Nie wiem”. Problemem jest duża część respondentów, którzy w pewnym momencie …


1
Łączenie wykresów kalibracyjnych po wielokrotnej imputacji
Chciałbym uzyskać porady dotyczące łączenia wykresów kalibracyjnych / statystyk po wielokrotnym imputacji. W kontekście opracowywania modeli statystycznych w celu przewidywania przyszłego zdarzenia (np. Wykorzystanie danych z rejestrów szpitalnych do przewidywania przeżycia lub zdarzeń po wypisie ze szpitala), można sobie wyobrazić, że brakuje wielu informacji. Wielokrotna imputacja jest sposobem na poradzenie …

3
Metody obejścia problemu braku danych w uczeniu maszynowym
Praktycznie każda baza danych, w której chcemy przewidywać za pomocą algorytmów uczenia maszynowego, znajdzie brakujące wartości niektórych cech. Istnieje kilka podejść do rozwiązania tego problemu, aby wykluczyć linie, w których brakuje wartości, dopóki nie wypełnią się średnimi wartościami cech. Chciałbym zastosować nieco bardziej niezawodne podejście, które zasadniczo uruchomiłoby regresję (lub …

5
Pakiety imputacji KNN
Szukam pakietu kalkulacyjnego KNN. Patrzyłem na pakiet imputacji ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ), ale z jakiegoś powodu funkcja imputacji KNN (nawet jeśli podąża za przykładem z opisu) wydaje się tylko przypisywać wartości zerowe (jak poniżej). Rozglądałem się, ale nie mogę jeszcze znaleźć czegoś, dlatego zastanawiałem się, czy ktoś ma inne sugestie dotyczące …

2
wykorzystując informacje o sąsiadach do przypisywania danych lub znajdowania danych niepowiązanych (w R)
Mam zestaw danych z założeniem, że najbliżsi sąsiedzi są najlepszymi predyktorami. Po prostu idealny przykład wizualizacji gradientu dwukierunkowego Załóżmy, że mamy przypadek, w którym brakuje kilku wartości, możemy łatwo przewidzieć na podstawie sąsiadów i trendu. Odpowiadająca macierz danych w R (przykładowy manekin do treningu): miss.mat <- matrix (c(5:11, 6:10, NA,12, …

5
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
XGBoost może obsłużyć brakujące dane w fazie prognozowania
Niedawno sprawdziłem algorytm XGBoost i zauważyłem, że ten algorytm może obsłużyć brakujące dane (bez konieczności przypisywania) w fazie szkolenia. Zastanawiałem się, czy XGboost może obsłużyć brakujące dane (bez konieczności imputacji), gdy jest używany do prognozowania nowych obserwacji, czy konieczne jest przypisanie brakujących danych. Z góry dziękuję.

4
Jak radzić sobie z brakującymi wartościami, aby przygotować dane do wyboru funkcji w LASSO?
Moja sytuacja: mała wielkość próby: 116 binarna zmienna wyniku długa lista zmiennych objaśniających: 44 zmienne objaśniające nie pochodziły z mojej głowy; ich wybór opierał się na literaturze. większość przypadków w próbie i większość zmiennych ma brakujące wartości. Podejdź do wybranego wyboru funkcji: LASSO Pakiet glmnet R nie pozwala mi uruchomić …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.