Jak algorytmy uczenia drzewa decyzyjnego radzą sobie z brakującymi wartościami (pod maską)

Jakie metody wykorzystują algorytmy uczenia drzewa decyzyjnego do radzenia sobie z brakującymi wartościami.

Czy po prostu wypełniają boks, używając wartości o nazwie brakującej?

Dzięki.

missing-data cart

Istnieje kilka metod używanych przez różne drzewa decyzyjne. Po prostu ignorowanie brakujących wartości (jak robi to ID3 i inne stare algorytmy) lub traktowanie brakujących wartości jako innej kategorii (w przypadku cechy nominalnej) nie jest prawdziwą obsługą brakujących wartości. Jednak te podejścia zastosowano na wczesnych etapach rozwoju drzewa decyzyjnego.

Rzeczywiste podejście do obsługi brakujących danych nie wykorzystuje punktu danych z brakującymi wartościami do oceny podziału. Jednak po utworzeniu i przeszkoleniu węzłów potomnych instancje te są w jakiś sposób dystrybuowane.

Wiem o następujących metodach dystrybucji brakujących instancji wartości do węzłów potomnych:

wszystko idzie do węzła, który ma już największą liczbę instancji (CART, nie jest podstawową regułą)
dystrybuuj do wszystkich dzieci, ale o zmniejszonej wadze, proporcjonalnie do liczby wystąpień z każdego węzła potomnego (C45 i innych)
dystrybuuj losowo tylko do jednego pojedynczego węzła podrzędnego, ostatecznie zgodnie z rozkładem kategorycznym (widziałem to w różnych implementacjach C45 i CART dla szybszego działania)
buduj, sortuj i używaj parametrów zastępczych do dystrybucji instancji do węzła potomnego, gdzie zastępcze są funkcjami wejściowymi, które najlepiej przypominają sposób, w jaki funkcja testowa wysyła instancje danych do lewego lub prawego węzła potomnego (CART, jeśli to się nie powiedzie, stosowana jest reguła większości)

— rapaio
źródło