Próbuję zrozumieć, jak w pełni zrozumieć proces decyzyjny modelu klasyfikacji drzewa decyzyjnego zbudowanego za pomocą sklearn. Dwa główne aspekty, na które patrzę, to reprezentacja drzewa grafviz oraz lista ważniejszych cech. To, czego nie rozumiem, to sposób, w jaki znaczenie funkcji jest określane w kontekście drzewa. Na przykład, oto moja lista ważności funkcji:
Ranking funkcji: 1. FeatureA (0.300237)
Cecha B (0,166800)
Cecha C (0,092472)
FeatureD (0,075009)
Cecha E (0,068310)
Cecha F (0,067118)
Cecha G (0,066510)
Cecha H (0,043502)
Cecha I (0,040281)
Cecha J (0,039006)
FeatureK (0,032618)
Cecha L (0,008136)
Cecha M (0,000000)
Jednak gdy patrzę na szczyt drzewa, wygląda to tak:
W rzeczywistości niektóre funkcje, które są klasyfikowane jako „najważniejsze”, pojawiają się dopiero w dalszej części drzewa, a górną częścią drzewa jest FeatureJ, który jest jedną z najniżej ocenianych funkcji. Moim naiwnym założeniem byłoby, że najważniejsze cechy zostałyby umieszczone w pobliżu szczytu drzewa, aby mieć największy wpływ. Jeśli jest to niepoprawne, to co powoduje, że funkcja jest „ważna”?