Mam zestaw danych zawierający około 5000 funkcji. Dla tych danych najpierw użyłem testu Chi Square do wyboru funkcji; potem otrzymałem około 1500 zmiennych, które wykazały związek istotności ze zmienną odpowiedzi.
Teraz muszę dopasować do tego regresję logistyczną. Używam pakietu glmulti dla R (pakiet glmulti zapewnia efektywny wybór podzbiorów dla vlm), ale może używać tylko 30 funkcji jednocześnie, w przeciwnym razie jego wydajność spada, ponieważ liczba wierszy w moim zestawie danych wynosi około 20000.
Czy istnieje inne podejście lub techniki rozwiązania powyższych problemów? Jeśli zastosuję powyższą metodę, dopasowanie modelu zajmie zbyt dużo czasu.
sklearn„s LogisticRegressioni rozwiązuje 4000 funkcji, 20.000 wierszy problemu w około minuty na moim laptopie.
