Mam rzadkie cechy, które są predykcyjne, mam też pewne gęste cechy, które są również predykcyjne. Muszę połączyć te funkcje razem, aby poprawić ogólną wydajność klasyfikatora.
Rzecz w tym, że kiedy próbuję połączyć je ze sobą, cechy gęste mają tendencję do dominacji nad cechami rzadkimi, a zatem dają tylko 1% poprawę AUC w porównaniu do modelu z cechami tylko gęstymi.
Czy ktoś napotkał podobne problemy? Naprawdę doceniam nakłady, jakby utknęły. Próbowałem już wielu różnych klasyfikatorów, kombinacji klasyfikatorów, transformacji cech i przetwarzania przy użyciu różnych algorytmów.
Z góry dziękuję za pomoc.
Edytuj :
Próbowałem już sugestii podanych w komentarzach. Zauważyłem, że dla prawie 45% danych rzadkie cechy działają naprawdę dobrze, otrzymuję AUC około 0,9 z tylko rzadkimi cechami, ale dla pozostałych gęste cechy działają dobrze z AUC około 0,75. W pewnym sensie próbowałem wyodrębnić te zestawy danych, ale otrzymuję AUC równe 0,6, więc nie mogę po prostu wytrenować modelu i zdecydować, których funkcji użyć.
Jeśli chodzi o fragment kodu, wypróbowałem tak wiele rzeczy, że nie jestem pewien, co dokładnie udostępnić :(