Mam zestaw danych zawierający głównie zmienne finansowe (120 funkcji, 4k przykładów), które są w większości wysoce skorelowane i bardzo głośne (na przykład wskaźniki techniczne), dlatego chciałbym wybrać około 20-30 do późniejszego użycia ze szkoleniem modelu (klasyfikacja binarna) - zwiększyć zmniejszyć).
Myślałem o użyciu losowych lasów do rankingu funkcji. Czy warto używać ich rekurencyjnie? Na przykład, powiedzmy w pierwszej rundzie, że upuszczam najgorsze 20%, także drugą itd., Dopóki nie otrzymam pożądanej liczby funkcji. Czy powinienem stosować walidację krzyżową z RF? (Intuicyjne jest dla mnie to, że nie używam CV, ponieważ tak już robi RF.)
Również jeśli korzystam z losowych lasów, czy powinienem ich używać jako klasyfikatorów dla pliku binarnego lub regresora dla rzeczywistego wzrostu / spadku, aby uzyskać ważność funkcji?
Nawiasem mówiąc, modelami, które chciałbym wypróbować po wybraniu funkcji, są: SVM, sieci neuronowe, lokalnie ważone regresje i losowy las. Pracuję głównie w Pythonie.
built-in
atrybutu RandomForestClassifier w sklearn
nazwie feature_importances_
....? Zobaczysz to w linku.