Właściwie piszę implementację Losowych Lasów, ale uważam, że pytanie dotyczy drzew decyzyjnych (niezależnych od RF).
Zatem kontekst polega na tym, że tworzę węzeł w drzewie decyzyjnym, a zmienne predykcyjne i docelowe są ciągłe. Węzeł ma podzielony próg podziału danych na dwa zestawy i tworzę nową prognozę dla każdego podzbioru na podstawie średniej wartości docelowej w każdym zestawie. Czy to jest właściwe podejście?
Powód, dla którego pytam, jest taki, że przewidując zmienne binarne , uważam, że typowym (poprawnym?) Podejściem jest podzielenie danych na podzbiory 0 i 1 bez przyjmowania średniej z wierszy danych w każdym podzbiorze. Kolejne podziały zostaną podzielone na podzbiory drobnoziarniste, a biorąc pod uwagę średnią przy każdym wyniku podziału, kolejne podziały (niżej w drzewie decyzyjnym) działają na zmiennych, które są teraz ciągłymi, a nie zmiennymi binarnymi (ponieważ operujemy na wartościach błędów resztkowych zamiast pierwotnych cele).
Pytanie poboczne: Czy rozróżnienie między dwoma podejściami (binarne i ciągłe) jest znaczące - czy faktycznie dadzą identyczne wyniki dla pełnego drzewa decyzyjnego?