Rozważmy bardzo prosty model: , z karą L1 na i funkcją utraty najmniejszych kwadratów na . Możemy rozszerzyć wyrażenie, aby zminimalizować jako:y=βx+eβ^e^
minyTy−2yTxβ^+β^xTxβ^+2λ|β^|
Załóżmy, że rozwiązaniem najmniejszych kwadratów jest jakieś , co jest równoznaczne z założeniem, że , i zobaczmy, co się stanie, gdy dodamy karę L1. Z , , więc kara jest równa . Pochodną funkcji celu wrt jest:β^>0yTx>0β^>0|β^|=β^2λββ^
−2yTx+2xTxβ^+2λ
który najwyraźniej ma rozwiązanie . β^=(yTx−λ)/(xTx)
Oczywiście, zwiększając , możemy doprowadzić do zera (w ). Jednak gdy , zwiększenie nie spowoduje, że będzie ujemne, ponieważ, pisząc luźno, instant staje się ujemny, pochodna funkcji celu zmienia się na:λβ^λ=yTxβ^=0λβ^
−2yTx+2xTxβ^−2λ
gdzie odwrócenie znaku wynika z charakteru wartości bezwzględnej kary pieniężnej; gdy staje się ujemna, kara umowna staje się równa , a wzięcie pochodnej wrt daje . Prowadzi to do rozwiązania , co jest oczywiście niespójne z (biorąc pod uwagę, że rozwiązanie najmniejszych kwadratów , co implikuje iλβ−2λββ−2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). Istnieje wzrost kary za L1 ORAZ wzrost kwadratu błędu (gdy przechodzimy dalej od rozwiązania najmniejszych kwadratów) podczas przenoszenia z do , więc nie, po prostu trzymaj się .β^0<0β^=0
Intuicyjnie powinno być jasne, że obowiązuje ta sama logika, z odpowiednimi zmianami znaków, dla rozwiązania najmniejszych kwadratów z . β^<0
Jednak z karą najmniejszych kwadratów pochodna staje się:λβ^2
−2yTx+2xTxβ^+2λβ^
który najwyraźniej ma rozwiązanie . Oczywiście żaden wzrost nie doprowadzi tego do zera. Tak więc kara za L2 nie może działać jako narzędzie do selekcji zmiennych bez pewnych łagodnych przekleństw, takich jak „ustaw oszacowanie parametru na zero, jeśli jest mniejsze niż ”. β^=yTx/(xTx+λ)λϵ
Oczywiście rzeczy mogą się zmienić, gdy przejdziesz do modeli wielowymiarowych, na przykład przesunięcie oszacowania jednego parametru może zmusić inny parametr do zmiany znaku, ale ogólna zasada jest taka sama: funkcja kary L2 nie może doprowadzić cię do zera, ponieważ pisząc bardzo heurystycznie, w rzeczywistości dodaje on do „mianownika” wyrażenia dla , ale funkcja kary L1 może, ponieważ w rzeczywistości dodaje do „licznika”. β^