Próbowałem użyć importu funkcji z Losowych Lasów, aby przeprowadzić empiryczny wybór funkcji dla problemu regresji, w którym wszystkie cechy są kategoryczne, a wiele z nich ma wiele poziomów (rzędu 100-1000). Biorąc pod uwagę, że kodowanie jednorazowe tworzy zmienną fikcyjną dla każdego poziomu, ważności operacji dotyczą każdego poziomu, a nie każdej funkcji (kolumny). Jaki jest dobry sposób na agregację tych ważności funkcji?
Myślałem o zsumowaniu lub uzyskaniu średniego znaczenia dla wszystkich poziomów cechy (prawdopodobnie ta pierwsza będzie tendencyjna w stosunku do tych cech z większą liczbą poziomów). Czy są jakieś odniesienia w tej sprawie?
Co jeszcze można zrobić, aby zmniejszyć liczbę funkcji? Zdaję sobie sprawę z grupy lasso, nie mogłem znaleźć nic łatwego w użyciu do scikit-learn.