Korzystam z modelu regresji zarówno z Lasso, jak i Ridge'em (aby przewidzieć dyskretną zmienną wyniku w zakresie od 0-5). Przed uruchomieniem modelu używam SelectKBest
metody scikit-learn
zmniejszenia zestawu funkcji z 250 do 25 . Bez wstępnego wyboru funkcji, zarówno Lasso, jak i Ridge dają niższe wyniki dokładności [co może wynikać z małej wielkości próbki, 600]. Pamiętaj też, że niektóre funkcje są skorelowane.
Po uruchomieniu modelu obserwuję, że dokładność prognoz jest prawie taka sama w przypadku Lasso i Ridge'a. Jednak gdy sprawdzam pierwsze 10 funkcji po uporządkowaniu ich według bezwzględnej wartości współczynników, widzę, że najwyżej% 50 zachodzi na siebie.
To znaczy, biorąc pod uwagę, że każda metoda przypisuje różne znaczenie cech, mogę mieć zupełnie inną interpretację w zależności od wybranego przeze mnie modelu.
Zwykle funkcje te reprezentują pewne aspekty zachowania użytkownika na stronie internetowej. Dlatego chcę wyjaśnić ustalenia, podkreślając cechy (zachowania użytkownika) o silniejszej zdolności predykcyjnej w porównaniu ze słabszymi cechami (zachowania użytkownika). W tym momencie nie wiem jednak, jak iść naprzód. Jak mam podejść do interpretacji modelu? Na przykład, czy należy połączyć oba elementy i zaznaczyć nakładające się, czy też powinienem iść z Lasso, ponieważ zapewnia on większą interpretację?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .