Zbudowałem klasyfikator regresji logistycznej, który jest bardzo dokładny na moich danych. Teraz chcę lepiej zrozumieć, dlaczego tak dobrze działa. W szczególności chciałbym uszeregować, które funkcje mają największy udział (które cechy są najważniejsze) i, najlepiej, obliczyć, ile każda cecha przyczynia się do dokładności całego modelu (lub czegoś w tym stylu). Jak mam to zrobic?
Moją pierwszą myślą było uszeregowanie ich na podstawie ich współczynnika, ale podejrzewam, że to nie może być prawda. Jeśli mam dwie funkcje, które są równie przydatne, ale rozkład pierwszego jest dziesięć razy większy niż drugi, to spodziewałbym się, że pierwszy otrzyma niższy współczynnik niż drugi. Czy istnieje bardziej rozsądny sposób oceny ważności funkcji?
Zauważ, że nie próbuję zrozumieć, jak mała zmiana w funkcji wpływa na prawdopodobieństwo wyniku. Staram się raczej zrozumieć, jak cenna jest każda funkcja, jeśli chodzi o dokładność klasyfikatora. Poza tym moim celem jest nie tyle wybranie funkcji, albo skonstruowanie modelu z mniejszą liczbą funkcji, ale próba zapewnienia „wyjaśnienia” wyuczonego modelu, aby klasyfikator nie był tylko nieprzejrzystą czarną skrzynką.