Pytania otagowane jako missing-data

Gdy dane przedstawiają brak informacji (braki), tj. Nie są kompletne. Dlatego ważne jest, aby wziąć pod uwagę tę funkcję podczas wykonywania analizy lub testu.

3
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego
Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


3
Dopasowywanie wyniku skłonności po wielokrotnym przypisaniu
Odnoszę się do tego artykułu: Hayes JR, Groner JI. „Korzystanie z wielu ocen imputacji i skłonności do testowania wpływu używania fotelików samochodowych i pasów bezpieczeństwa na stopień obrażeń na podstawie danych rejestru urazów”. J Pediatr Surg. 2008 maja; 43 (5): 924–7. W tym badaniu przeprowadzono wielokrotną imputację w celu uzyskania …


3
Jak R radzi sobie z brakującymi wartościami w lm?
Chciałbym regresować wektor B względem każdej kolumny w macierzy A. Jest to trywialne, jeśli nie ma brakujących danych, ale jeśli macierz A zawiera brakujące wartości, to moja regresja w stosunku do A jest ograniczona i obejmuje tylko wiersze, w których wszystkie wartości są obecne (domyślne zachowanie na.omit ). To powoduje …

3
R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …

3
R caret i NA
Bardzo wolę dbać o jego zdolność do dostrajania parametrów i jednolity interfejs, ale zauważyłem, że zawsze wymaga kompletnych zestawów danych (tj. Bez NA), nawet jeśli zastosowany model „nagi” pozwala NA. Jest to bardzo uciążliwe, ponieważ należy stosować pracochłonne metody imputacji, które w pierwszej kolejności nie są konieczne. Jak można uniknąć …

5
Algorytmy uczenia maszynowego do obsługi brakujących danych
Próbuję opracować model predykcyjny z wykorzystaniem wielowymiarowych danych klinicznych, w tym wartości laboratoryjnych. Przestrzeń danych jest rzadka z 5k próbkami i 200 zmiennymi. Chodzi o to, aby uszeregować zmienne przy użyciu metody wyboru cech (IG, RF itp.) I użyć funkcji o najwyższym rankingu do opracowania modelu predykcyjnego. Podczas gdy wybór …

2
Dlaczego algorytm Expectation Maximization gwarantuje osiągnięcie zbieżności z lokalnym optimum?
Przeczytałem kilka wyjaśnień algorytmu EM (np. Z Bishop's Pattern Recognition and Machine Learning oraz z Roger i Gerolami First Course on Machine Learning). Wyprowadzenie EM jest w porządku, rozumiem to. Rozumiem również, dlaczego algorytm obejmuje coś: na każdym etapie poprawiamy wynik, a prawdopodobieństwo jest ograniczone przez 1,0, więc używając prostego …

4
Oszacowanie maksymalnego prawdopodobieństwa EM dla rozkładu Weibulla
Uwaga: wysyłam pytanie od mojego byłego studenta, który nie jest w stanie samodzielnie napisać ze względów technicznych. Biorąc pod uwagę próbkę z rozkładu Weibulla z pdf czy użyteczne brak reprezentacji zmiennej a zatem powiązany algorytm EM (maksymalizacja oczekiwań), którego można użyć do znalezienia MLE zamiast prostego optymalizacja numeryczna?x1,…,xnx1,…,xnx_1,\ldots,x_nfk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = …

4
Wpisywanie brakujących wartości dla PCA
Użyłem tej prcomp()funkcji do wykonania PCA (analiza głównego składnika) w R. Jednak w tej funkcji jest błąd, który na.actionpowoduje, że parametr nie działa. Poprosiłem o pomoc w stosie przepływu ; dwóch użytkowników zaoferowało dwa różne sposoby radzenia sobie z NAwartościami. Problem z obydwoma rozwiązaniami polega jednak na tym, że gdy …


5
Podejście statystyczne do ustalenia, czy dane brakuje przypadkowo
Mam duży zestaw wektorów cech, których użyję do zaatakowania problemu z klasyfikacją binarną (za pomocą scikit learn w Pythonie). Zanim zacznę myśleć o imputacji, jestem zainteresowany próbą ustalenia na podstawie pozostałych części danych, czy brakujące dane są „losowo brakujące”, czy nie losowe. Jak rozsądnie podejść do tego pytania? Okazuje się, …

2
Jak mogę połączyć średnie tylne i wiarygodne przedziały po wielokrotnym przypisaniu?
Użyłem wielokrotnej imputacji, aby uzyskać liczbę kompletnych zestawów danych. Użyłem metod bayesowskich na każdym z kompletnych zestawów danych, aby uzyskać rozkłady tylne dla parametru (efekt losowy). Jak mogę połączyć / połączyć wyniki dla tego parametru? Więcej kontekstu: Mój model jest hierarchiczny w sensie pojedynczych uczniów (jedna obserwacja na jednego ucznia) …

1
Różnica między brakującymi danymi a danymi rzadkimi w algorytmach uczenia maszynowego
Jakie są główne różnice między danymi rzadkimi a brakującymi? Jak wpływa na uczenie maszynowe? Mówiąc dokładniej, jaki wpływ rzadkie dane i brakujące dane mają na algorytmy klasyfikacji i algorytmy regresji (przewidywania liczb). Mówię o sytuacji, w której odsetek brakujących danych jest znaczny i nie możemy upuścić wierszy zawierających brakujące dane.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.