Mam już pojęcie o zaletach i wadach regresji grzbietu i LASSO.
W przypadku LASSO kara karna L1 da rzadki wektor współczynnika, który można postrzegać jako metodę wyboru cech. Istnieją jednak pewne ograniczenia dotyczące LASSO. Jeśli funkcje mają wysoką korelację, LASSO wybierze tylko jedną z nich. Ponadto w przypadku problemów, w których > , LASSO wybierze co najwyżej parametrów ( i to odpowiednio liczba obserwacji i parametrów). To sprawia, że LASSO jest empirycznie metodą nieoptymalną pod względem przewidywalności w porównaniu z regresją grzbietu.n n n p
W przypadku regresji kalenicowej oferuje ogólnie lepszą przewidywalność. Jednak jego interpretacja nie jest tak przyjemna jak w przypadku LASSO.
Powyższe wyjaśnienie często można znaleźć w podręcznikach uczenia maszynowego / eksploracji danych. Nadal jednak jestem zdezorientowany dwiema rzeczami:
Jeśli znormalizujemy zakres cech (powiedzmy między 0 a 1 lub z zerową średnią i wariancją jednostkową) i uruchomimy regresję grzbietu, możemy nadal mieć pojęcie o znaczeniu cechy, sortując wartości bezwzględne współczynników (najważniejsza cecha ma najwyższa bezwzględna wartość współczynników). Chociaż nie wybieramy funkcji jawnie, interpretacja nie jest tracona przy użyciu regresji grzbietu. Jednocześnie nadal możemy osiągnąć wysoką moc predykcyjną. Dlaczego więc potrzebujemy LASSO? Czy coś mi umyka?
Czy LASSO jest preferowany ze względu na charakter wyboru funkcji? Według mnie powodem, dla którego potrzebujemy wyboru funkcji, jest możliwość uogólnienia i łatwość obliczeń.
Aby ułatwić obliczenia, nie chcemy wprowadzać do naszego modelu wszystkich 1 miliona operacji, jeśli wykonujemy niektóre zadania NLP, więc najpierw upuszczamy niektóre oczywiście bezużyteczne funkcje, aby zmniejszyć koszty obliczeniowe. Jednak w przypadku LASSO możemy poznać wynik wyboru funkcji (wektor rzadki) dopiero po wprowadzeniu wszystkich danych do naszego modelu, więc nie czerpiemy korzyści z LASSO pod względem zmniejszenia kosztów obliczeniowych. Możemy tylko przewidywać nieco szybciej, ponieważ teraz wprowadzamy tylko podzbiór funkcji (powiedzmy 500 z 1 miliona) do naszego modelu, aby wygenerować przewidywane wyniki.
Jeśli LASSO jest preferowane ze względu na jego zdolność do uogólnienia, możemy również osiągnąć ten sam cel za pomocą regresji grzbietu (lub innego rodzaju regularyzacji). Dlaczego potrzebujemy ponownie LASSO (lub elastycznych sieci)? Dlaczego nie możemy po prostu trzymać się regresji grzbietowej?
Czy ktoś mógłby rzucić na to trochę światła? Dzięki!