Jak interpretować wyniki, gdy zarówno grzbiet, jak i lasso oddzielnie działają dobrze, ale dają różne współczynniki

Korzystam z modelu regresji zarówno z Lasso, jak i Ridge'em (aby przewidzieć dyskretną zmienną wyniku w zakresie od 0-5). Przed uruchomieniem modelu używam SelectKBestmetody scikit-learnzmniejszenia zestawu funkcji z 250 do 25 . Bez wstępnego wyboru funkcji, zarówno Lasso, jak i Ridge dają niższe wyniki dokładności [co może wynikać z małej wielkości próbki, 600]. Pamiętaj też, że niektóre funkcje są skorelowane.

Po uruchomieniu modelu obserwuję, że dokładność prognoz jest prawie taka sama w przypadku Lasso i Ridge'a. Jednak gdy sprawdzam pierwsze 10 funkcji po uporządkowaniu ich według bezwzględnej wartości współczynników, widzę, że najwyżej% 50 zachodzi na siebie.

To znaczy, biorąc pod uwagę, że każda metoda przypisuje różne znaczenie cech, mogę mieć zupełnie inną interpretację w zależności od wybranego przeze mnie modelu.

Zwykle funkcje te reprezentują pewne aspekty zachowania użytkownika na stronie internetowej. Dlatego chcę wyjaśnić ustalenia, podkreślając cechy (zachowania użytkownika) o silniejszej zdolności predykcyjnej w porównaniu ze słabszymi cechami (zachowania użytkownika). W tym momencie nie wiem jednak, jak iść naprzód. Jak mam podejść do interpretacji modelu? Na przykład, czy należy połączyć oba elementy i zaznaczyć nakładające się, czy też powinienem iść z Lasso, ponieważ zapewnia on większą interpretację?

— renakre
źródło

(+1) Regularyzację można postrzegać jako pogarszanie indywidualnych oszacowań współczynników przy jednoczesnym zwiększeniu ich zbiorowych wyników w zakresie przewidywania nowych odpowiedzi. Co dokładnie próbujesz osiągnąć dzięki swojej interpretacji?

— Scortchi - Przywróć Monikę

@Scortchi dzięki za odpowiedź. Dodałem to

Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .

— renakre

+1 AFAIK relacja między współczynnikami kalenicy a lambda nie musi być monotoniczna, podczas gdy w lasso jest. Zatem przy pewnych poziomach skurczu bezwzględna wartość współczynników w kalenicy i lasso może się znacznie różnić. Powiedziawszy to, byłbym wdzięczny, gdyby ktoś mógł naszkicować dowód lub krótko wyjaśnić go matematycznie

— Łukasz Grad

Upewnij się, że sortujesz współczynniki „beta”. Zobacz stats.stackexchange.com/a/243439/70282 Możesz je zdobyć, szkoląc znormalizowane zmienne lub dostosowując później, jak opisano w łączu.

— Chris

@ ŁukaszGrad Współczynniki LASSO nie muszą być funkcjami monotonicznymi jeśli predyktory są skorelowane; przykład patrz rysunek 6.6 ISLR .

λ

$\lambda$

— EdM

Regresja kalenicy zachęca do zmniejszenia wszystkich współczynników. Lasso zachęca wiele / większość [**] współczynników do zera, a kilka niezerowych. Oba zmniejszą dokładność zestawu treningowego, ale poprawią przewidywanie w pewien sposób:

regresja grzbietu próbuje ulepszyć uogólnienie zestawu testowego, zmniejszając nadmiar
lasso zmniejszy liczbę niezerowych współczynników, nawet jeśli obniży to wydajność zarówno zestawu treningowego, jak i testowego

Możesz uzyskać różne możliwości wyboru współczynników, jeśli twoje dane są wysoce skorelowane. Możesz mieć 5 skorelowanych funkcji:

przypisując małe, ale niezerowe współczynniki do wszystkich tych funkcji, regresja kalenicy może osiągnąć niską stratę na zestawie treningowym, co może prawdopodobnie uogólnić na zestaw testowy
lasso może wybrać tylko jeden z nich, który dobrze koreluje z pozostałymi czterema. i nie ma powodu, dla którego powinien wybrać cechę o najwyższym współczynniku w wersji regresji grzbietu

[*] dla definicji znaczenia „wybierz”: przypisuje niezerowy współczynnik, który wciąż trochę wymachuje ręką, ponieważ współczynniki regresji grzbietu będą miały tendencję do niezerowego, ale np. niektóre mogą być jak 1e-8 , a inne mogą być np. 0,01

[**] niuans: jak zauważa Richard Hardy, dla niektórych przypadków użycia można wybrać wartość co spowoduje, że wszystkie współczynniki LASSO będą niezerowe, ale z pewnym skurczem $\lambda$

— Hugh Perkins
źródło

Dobre sugestie. Warto sprawdzić macierz korelacji. Nie nakładające się zmienne mogą być wysoce skorelowane.

— Chris

Dobra odpowiedź! Nie jestem jednak pewien, czy słuszne jest sugerowanie, że ridge ogólnie próbuje poprawić wydajność testu, nie mówiąc tego samego o lasso. Na przykład, jeśli prawdziwy model jest rzadki (i w podzbiorze naszych predyktorów), możemy od razu oczekiwać, że lasso będzie miało lepszą wydajność testową niż grzbiet

— 795305

Jest to zasada „stawiania na sparingowość”. Na przykład, patrz pierwszy wykres tutaj: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html

— user795305

Porównanie zmiennych wyborów (LASSO) i współczynników regresji wśród wielu próbek danych ładowania początkowego może dobrze zilustrować te problemy. W przypadku skorelowanych predyktorów wybrane przez LASSO z różnych bootstrapów mogą być całkiem różne, zapewniając jednocześnie podobną wydajność predykcyjną. Najlepiej byłoby, gdyby cały proces budowania modelu, w tym początkowa redukcja zestawu funkcji, był powtarzany na wielu bootstrapach, aby udokumentować jakość procesu.

— EdM

λ

$\lambda$