Mam zestaw danych z około 2000 zmiennymi binarnymi / 200 000 wierszy i próbuję przewidzieć pojedynczą zmienną zależną binarnie. Moim głównym celem na tym etapie nie jest uzyskanie dokładności prognoz, ale raczej określenie, które z tych zmiennych są ważnymi predyktorami. Chciałbym zmniejszyć liczbę zmiennych w moim ostatecznym modelu do około 100.
Czy istnieje względnie szybki sposób uzyskania najważniejszych zmiennych? Wydaje się, że randomForest zajmuje dużo czasu.
Nie muszę używać wszystkich 200 000 obserwacji, więc próbkowanie jest opcją na stole.