Staram się przewidzieć sukces lub porażkę uczniów na podstawie niektórych funkcji za pomocą modelu regresji logistycznej. Aby poprawić wydajność modelu, już myślałem o podzieleniu uczniów na różne grupy w oparciu o oczywiste różnice i zbudowaniu osobnych modeli dla każdej grupy. Sądzę jednak, że identyfikacja tych grup na podstawie badań może być trudna, więc pomyślałem o podzieleniu uczniów przez grupowanie ich cech. Czy jest to powszechna praktyka w budowaniu takich modeli? Czy sugerowałbyś, żebym podzielił go na oczywiste grupy (na przykład studentów pierwszego semestru vs. studentów powracających), a następnie przeprowadzę grupowanie tych grup lub skupienie od samego początku?
Aby spróbować wyjaśnić:Mam na myśli to, że rozważam użycie algorytmu klastrowania, aby rozbić mój zestaw treningowy regresji logistycznej na grupy. Następnie wykonałbym osobne regresje logistyczne dla każdej z tych grup. Następnie, stosując regresję logistyczną do przewidywania wyników dla ucznia, wybrałbym model, który zastosować, na podstawie grupy, do której najlepiej pasują.
Być może mógłbym zrobić to samo, dołączając identyfikator grupy, na przykład 1, jeśli uczeń powraca, a 0, jeśli nie.
Teraz zastanawiam się, czy może być korzystne grupowanie zestawu danych treningowych i używanie ich etykiety klastrowej jako funkcji w regresji logistycznej, zamiast budowania osobnych modeli regresji logistycznej dla każdej populacji.
Jeśli użyteczne jest podanie identyfikatora grupy dla tych, którzy powracają, a nowych studentów, to czy przydatne może być również rozszerzenie listy grup? Grupowanie wydaje się naturalnym sposobem na zrobienie tego.
Mam nadzieję, że to jasne ...