Gdy dane przedstawiają brak informacji (braki), tj. Nie są kompletne. Dlatego ważne jest, aby wziąć pod uwagę tę funkcję podczas wykonywania analizy lub testu.
Jakie są teoretyczne powody, aby nie obsługiwać brakujących wartości? Maszyny zwiększające gradient, drzewa regresji radzą sobie z brakującymi wartościami. Dlaczego Random Forest tego nie robi?
Odnoszę się do tego artykułu: Hayes JR, Groner JI. „Korzystanie z wielu ocen imputacji i skłonności do testowania wpływu używania fotelików samochodowych i pasów bezpieczeństwa na stopień obrażeń na podstawie danych rejestru urazów”. J Pediatr Surg. 2008 maja; 43 (5): 924–7. W tym badaniu przeprowadzono wielokrotną imputację w celu uzyskania …
Mam zestaw danych. Brakuje wielu wartości. W przypadku niektórych kolumn brakującą wartość zastąpiono wartością -999, ale w innych kolumnach brakującą wartość oznaczono jako „NA”. Dlaczego użyjemy -999, aby zastąpić brakującą wartość?
Chciałbym regresować wektor B względem każdej kolumny w macierzy A. Jest to trywialne, jeśli nie ma brakujących danych, ale jeśli macierz A zawiera brakujące wartości, to moja regresja w stosunku do A jest ograniczona i obejmuje tylko wiersze, w których wszystkie wartości są obecne (domyślne zachowanie na.omit ). To powoduje …
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …
Bardzo wolę dbać o jego zdolność do dostrajania parametrów i jednolity interfejs, ale zauważyłem, że zawsze wymaga kompletnych zestawów danych (tj. Bez NA), nawet jeśli zastosowany model „nagi” pozwala NA. Jest to bardzo uciążliwe, ponieważ należy stosować pracochłonne metody imputacji, które w pierwszej kolejności nie są konieczne. Jak można uniknąć …
Próbuję opracować model predykcyjny z wykorzystaniem wielowymiarowych danych klinicznych, w tym wartości laboratoryjnych. Przestrzeń danych jest rzadka z 5k próbkami i 200 zmiennymi. Chodzi o to, aby uszeregować zmienne przy użyciu metody wyboru cech (IG, RF itp.) I użyć funkcji o najwyższym rankingu do opracowania modelu predykcyjnego. Podczas gdy wybór …
Przeczytałem kilka wyjaśnień algorytmu EM (np. Z Bishop's Pattern Recognition and Machine Learning oraz z Roger i Gerolami First Course on Machine Learning). Wyprowadzenie EM jest w porządku, rozumiem to. Rozumiem również, dlaczego algorytm obejmuje coś: na każdym etapie poprawiamy wynik, a prawdopodobieństwo jest ograniczone przez 1,0, więc używając prostego …
Uwaga: wysyłam pytanie od mojego byłego studenta, który nie jest w stanie samodzielnie napisać ze względów technicznych. Biorąc pod uwagę próbkę z rozkładu Weibulla z pdf czy użyteczne brak reprezentacji zmiennej a zatem powiązany algorytm EM (maksymalizacja oczekiwań), którego można użyć do znalezienia MLE zamiast prostego optymalizacja numeryczna?x1,…,xnx1,…,xnx_1,\ldots,x_nfk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = …
Użyłem tej prcomp()funkcji do wykonania PCA (analiza głównego składnika) w R. Jednak w tej funkcji jest błąd, który na.actionpowoduje, że parametr nie działa. Poprosiłem o pomoc w stosie przepływu ; dwóch użytkowników zaoferowało dwa różne sposoby radzenia sobie z NAwartościami. Problem z obydwoma rozwiązaniami polega jednak na tym, że gdy …
Jakie metody wykorzystują algorytmy uczenia drzewa decyzyjnego do radzenia sobie z brakującymi wartościami. Czy po prostu wypełniają boks, używając wartości o nazwie brakującej? Dzięki.
Mam duży zestaw wektorów cech, których użyję do zaatakowania problemu z klasyfikacją binarną (za pomocą scikit learn w Pythonie). Zanim zacznę myśleć o imputacji, jestem zainteresowany próbą ustalenia na podstawie pozostałych części danych, czy brakujące dane są „losowo brakujące”, czy nie losowe. Jak rozsądnie podejść do tego pytania? Okazuje się, …
Użyłem wielokrotnej imputacji, aby uzyskać liczbę kompletnych zestawów danych. Użyłem metod bayesowskich na każdym z kompletnych zestawów danych, aby uzyskać rozkłady tylne dla parametru (efekt losowy). Jak mogę połączyć / połączyć wyniki dla tego parametru? Więcej kontekstu: Mój model jest hierarchiczny w sensie pojedynczych uczniów (jedna obserwacja na jednego ucznia) …
Jakie są główne różnice między danymi rzadkimi a brakującymi? Jak wpływa na uczenie maszynowe? Mówiąc dokładniej, jaki wpływ rzadkie dane i brakujące dane mają na algorytmy klasyfikacji i algorytmy regresji (przewidywania liczb). Mówię o sytuacji, w której odsetek brakujących danych jest znaczny i nie możemy upuścić wierszy zawierających brakujące dane.
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.