Statystyki i duże zbiory danych missing-data

3

Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

7

Dlaczego Random Forest nie obsługuje brakujących wartości w predyktorach?

Jakie są teoretyczne powody, aby nie obsługiwać brakujących wartości? Maszyny zwiększające gradient, drzewa regresji radzą sobie z brakującymi wartościami. Dlaczego Random Forest tego nie robi?

42 random-forest missing-data gbm

3

Dopasowywanie wyniku skłonności po wielokrotnym przypisaniu

Odnoszę się do tego artykułu: Hayes JR, Groner JI. „Korzystanie z wielu ocen imputacji i skłonności do testowania wpływu używania fotelików samochodowych i pasów bezpieczeństwa na stopień obrażeń na podstawie danych rejestru urazów”. J Pediatr Surg. 2008 maja; 43 (5): 924–7. W tym badaniu przeprowadzono wielokrotną imputację w celu uzyskania …

34 missing-data propensity-scores

5

Dlaczego niektóre osoby używają -999 lub -9999 do zastąpienia brakujących wartości?

Mam zestaw danych. Brakuje wielu wartości. W przypadku niektórych kolumn brakującą wartość zastąpiono wartością -999, ale w innych kolumnach brakującą wartość oznaczono jako „NA”. Dlaczego użyjemy -999, aby zastąpić brakującą wartość?

32 missing-data

3

Jak R radzi sobie z brakującymi wartościami w lm?

Chciałbym regresować wektor B względem każdej kolumny w macierzy A. Jest to trywialne, jeśli nie ma brakujących danych, ale jeśli macierz A zawiera brakujące wartości, to moja regresja w stosunku do A jest ograniczona i obejmuje tylko wiersze, w których wszystkie wartości są obecne (domyślne zachowanie na.omit ). To powoduje …

32 r missing-data linear-model

3

R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

3

R caret i NA

Bardzo wolę dbać o jego zdolność do dostrajania parametrów i jednolity interfejs, ale zauważyłem, że zawsze wymaga kompletnych zestawów danych (tj. Bez NA), nawet jeśli zastosowany model „nagi” pozwala NA. Jest to bardzo uciążliwe, ponieważ należy stosować pracochłonne metody imputacji, które w pierwszej kolejności nie są konieczne. Jak można uniknąć …

26 r missing-data data-imputation caret

5

Algorytmy uczenia maszynowego do obsługi brakujących danych

Próbuję opracować model predykcyjny z wykorzystaniem wielowymiarowych danych klinicznych, w tym wartości laboratoryjnych. Przestrzeń danych jest rzadka z 5k próbkami i 200 zmiennymi. Chodzi o to, aby uszeregować zmienne przy użyciu metody wyboru cech (IG, RF itp.) I użyć funkcji o najwyższym rankingu do opracowania modelu predykcyjnego. Podczas gdy wybór …

25 machine-learning missing-data

2

Dlaczego algorytm Expectation Maximization gwarantuje osiągnięcie zbieżności z lokalnym optimum?

Przeczytałem kilka wyjaśnień algorytmu EM (np. Z Bishop's Pattern Recognition and Machine Learning oraz z Roger i Gerolami First Course on Machine Learning). Wyprowadzenie EM jest w porządku, rozumiem to. Rozumiem również, dlaczego algorytm obejmuje coś: na każdym etapie poprawiamy wynik, a prawdopodobieństwo jest ograniczone przez 1,0, więc używając prostego …

24 missing-data convergence expectation-maximization

4

Oszacowanie maksymalnego prawdopodobieństwa EM dla rozkładu Weibulla

Uwaga: wysyłam pytanie od mojego byłego studenta, który nie jest w stanie samodzielnie napisać ze względów technicznych. Biorąc pod uwagę próbkę z rozkładu Weibulla z pdf czy użyteczne brak reprezentacji zmiennej a zatem powiązany algorytm EM (maksymalizacja oczekiwań), którego można użyć do znalezienia MLE zamiast prostego optymalizacja numeryczna?x1,…,xnx1,…,xnx_1,\ldots,x_nfk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = …

24 optimization missing-data expectation-maximization weibull gumbel

4

Wpisywanie brakujących wartości dla PCA

Użyłem tej prcomp()funkcji do wykonania PCA (analiza głównego składnika) w R. Jednak w tej funkcji jest błąd, który na.actionpowoduje, że parametr nie działa. Poprosiłem o pomoc w stosie przepływu ; dwóch użytkowników zaoferowało dwa różne sposoby radzenia sobie z NAwartościami. Problem z obydwoma rozwiązaniami polega jednak na tym, że gdy …

23 r pca missing-data data-imputation

1

Jak algorytmy uczenia drzewa decyzyjnego radzą sobie z brakującymi wartościami (pod maską)

Jakie metody wykorzystują algorytmy uczenia drzewa decyzyjnego do radzenia sobie z brakującymi wartościami. Czy po prostu wypełniają boks, używając wartości o nazwie brakującej? Dzięki.

21 missing-data cart

5

Podejście statystyczne do ustalenia, czy dane brakuje przypadkowo

Mam duży zestaw wektorów cech, których użyję do zaatakowania problemu z klasyfikacją binarną (za pomocą scikit learn w Pythonie). Zanim zacznę myśleć o imputacji, jestem zainteresowany próbą ustalenia na podstawie pozostałych części danych, czy brakujące dane są „losowo brakujące”, czy nie losowe. Jak rozsądnie podejść do tego pytania? Okazuje się, …

21 missing-data randomness

2

Jak mogę połączyć średnie tylne i wiarygodne przedziały po wielokrotnym przypisaniu?

Użyłem wielokrotnej imputacji, aby uzyskać liczbę kompletnych zestawów danych. Użyłem metod bayesowskich na każdym z kompletnych zestawów danych, aby uzyskać rozkłady tylne dla parametru (efekt losowy). Jak mogę połączyć / połączyć wyniki dla tego parametru? Więcej kontekstu: Mój model jest hierarchiczny w sensie pojedynczych uczniów (jedna obserwacja na jednego ucznia) …

20 bayesian mixed-model missing-data

1

Różnica między brakującymi danymi a danymi rzadkimi w algorytmach uczenia maszynowego

Jakie są główne różnice między danymi rzadkimi a brakującymi? Jak wpływa na uczenie maszynowe? Mówiąc dokładniej, jaki wpływ rzadkie dane i brakujące dane mają na algorytmy klasyfikacji i algorytmy regresji (przewidywania liczb). Mówię o sytuacji, w której odsetek brakujących danych jest znaczny i nie możemy upuścić wierszy zawierających brakujące dane.

20 machine-learning dataset missing-data sparse

Pytania otagowane jako missing-data