Mam zestaw danych z 330 próbkami i 27 funkcjami dla każdej próbki, z problemem klasy binarnej dla regresji logistycznej.
Zgodnie z „regułą, jeśli dziesięć” potrzebuję co najmniej 10 zdarzeń, aby każda funkcja mogła zostać uwzględniona. Chociaż mam niezrównoważony zestaw danych, z 20% klasy dodatniej i 80% klasy ujemnej.
To daje mi tylko 70 zdarzeń, co pozwala na włączenie tylko około 7/8 funkcji do modelu logistycznego.
Chciałbym ocenić wszystkie funkcje jako predyktory, nie chcę ręcznie wybierać żadnych funkcji.
Co byś zasugerował? Czy powinienem wykonać wszystkie możliwe 7 kombinacji funkcji? Czy powinienem oceniać każdą cechę osobno za pomocą modelu asocjacji, a następnie wybrać tylko te najlepsze dla ostatecznego modelu?
Jestem również ciekawy obsługi funkcji jakościowych i ciągłych, czy mogę je łączyć? Jeśli mam kategoryczne [0–1] i ciągłe [0–100], czy powinienem się normalizować?
Obecnie pracuję z Python.
Bardzo dziękuję za Twoją pomoc!