Załóżmy, że masz dwie wysoce skorelowane zmienne predykcyjne , i załóżmy, że obie są wyśrodkowane i skalowane (co oznacza zero, wariancja jedna). Zatem kara za kalenicę na wektorze parametrów wynosi β 2 1 + β 2 2, natomiast kara za lasso wynosi ∣ β 1 ∣ + ∣ β 2 ∣ . Ponieważ model ma być wysoce współliniowy, więc x i z mniej więcej mogą się wzajemnie zastępować w przewidywaniu Y , tak wiele liniowych kombinacji x , z, w których po prostu podstawiamy w częścix,zβ21+β22∣β1∣+∣β2∣xzYx,z dla z , będzie działał bardzo podobnie jak predyktory, na przykład 0,2 x + 0,8 x , 0,3 x + 0,7 z lub 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zbędą równie dobre jak predyktory. Spójrzmy teraz na te trzy przykłady, kara lasso we wszystkich trzech przypadkach jest równa, wynosi 1, podczas gdy kara grzbietu różni się, wynosi odpowiednio 0,68, 0,58, 0,5, więc kara grzbietu preferuje równe ważenie zmiennych kolinearnych podczas kary lasso nie będzie mógł wybrać. Jest to jeden z powodów, dla których grzbiet (lub bardziej ogólnie, elastyczna siatka, która jest liniową kombinacją kar lasso i kalenicy) będzie działał lepiej z predyktorami kolinearnymi: gdy dane nie dają powodu, aby wybierać między różnymi liniowymi kombinacjami predyktorów kolinearnych, lasso po prostu „wędrować”, podczas gdy grzbiet zwykle wybiera taką samą wagę. To ostatnie może być lepszym przypuszczeniem do wykorzystania z przyszłymi danymi! A jeśli tak jest w przypadku obecnych danych, może się okazać w krzyżowej weryfikacji jako lepsze wyniki z grzebieniem.
Możemy to postrzegać w sposób bayesowski: grzbiet i lasso implikują różne wcześniejsze informacje, a wcześniejsze informacje sugerowane przez grzbiet wydają się być bardziej uzasadnione w takich sytuacjach. (To wyjaśnienie tutaj nauczyłem się, mniej więcej, z książki: „Statystyczne uczenie się ze sparsity Lasso i uogólnienia” Trevora Hastiego, Roberta Tibshirani i Martina Wainwrighta, ale w tej chwili nie byłem w stanie znaleźć bezpośredniego cytatu).