Jestem nowy w eksploracji danych i staram się trenować drzewo decyzyjne względem zestawu danych, który jest wysoce niezrównoważony. Mam jednak problemy ze słabą dokładnością predykcyjną.
Dane obejmują studentów studiujących kursy, a zmienną klasową jest status kursu, który ma dwie wartości - Wycofany lub Bieżący.
- Wiek
- Pochodzenie etniczne
- Płeć
- Oczywiście
... - Status kursu
W zestawie danych znajduje się o wiele więcej instancji, które są aktualne niż wycofane. Wycofane wystąpienia stanowią tylko 2% wszystkich wystąpień.
Chcę być w stanie zbudować model, który może przewidzieć prawdopodobieństwo, że dana osoba wycofa się w przyszłości. Jednak podczas testowania modelu na podstawie danych treningowych dokładność modelu jest straszna.
Miałem podobne problemy z drzewami decyzyjnymi, w których dane są zdominowane przez jedną lub dwie klasy.
Jakie podejście mogę zastosować, aby rozwiązać ten problem i zbudować dokładniejszy klasyfikator?