Mam zestaw danych zawierający około 5000 funkcji. Dla tych danych najpierw użyłem testu Chi Square do wyboru funkcji; potem otrzymałem około 1500 zmiennych, które wykazały związek istotności ze zmienną odpowiedzi.
Teraz muszę dopasować do tego regresję logistyczną. Używam pakietu glmulti dla R (pakiet glmulti zapewnia efektywny wybór podzbiorów dla vlm), ale może używać tylko 30 funkcji jednocześnie, w przeciwnym razie jego wydajność spada, ponieważ liczba wierszy w moim zestawie danych wynosi około 20000.
Czy istnieje inne podejście lub techniki rozwiązania powyższych problemów? Jeśli zastosuję powyższą metodę, dopasowanie modelu zajmie zbyt dużo czasu.
sklearn
„s LogisticRegression
i rozwiązuje 4000 funkcji, 20.000 wierszy problemu w około minuty na moim laptopie.