Próbuję opracować model predykcyjny z wykorzystaniem wielowymiarowych danych klinicznych, w tym wartości laboratoryjnych. Przestrzeń danych jest rzadka z 5k próbkami i 200 zmiennymi. Chodzi o to, aby uszeregować zmienne przy użyciu metody wyboru cech (IG, RF itp.) I użyć funkcji o najwyższym rankingu do opracowania modelu predykcyjnego.
Podczas gdy wybór funkcji przebiega dobrze w podejściu Naïve Bayesa, teraz napotykam problem we wdrażaniu modelu predykcyjnego z powodu brakujących danych (NA) w mojej zmiennej przestrzeni. Czy istnieje algorytm uczenia maszynowego, który może ostrożnie obsługiwać próbki z brakującymi danymi?