Przeglądałem tutaj różne wątki, ale nie sądzę, aby na moje dokładne pytanie zostało udzielone odpowiedzi.
Mam zbiór danych obejmujący ~ 50 000 studentów i ich czas na rezygnację. Zamierzam przeprowadzić proporcjonalną regresję zagrożeń z dużą liczbą potencjalnych zmiennych towarzyszących. Zamierzam również przeprowadzić regresję logistyczną w przypadku porzucenia / pozostania w. Głównym celem będzie przewidywanie nowych grup studentów, ale nie mamy powodu, aby sądzić, że będą się znacznie różnić od grupy z zeszłego roku.
Zwykle nie mam takiego luksusu danych i dopasowuję model z jakąś penalizacją, ale tym razem pomyślałem o podzieleniu zbiorów treningowych i testowych, a następnie dokonaniu selekcji zmiennych w zestawie szkoleniowym; następnie używając zestawu danych testowych do oszacowania parametrów i zdolności predykcyjnej.
Czy to dobra strategia? Jeśli nie, co jest lepsze?
Cytaty mile widziane, ale nie konieczne.