Należy pamiętać, że regresja kalenicy nie może wyzerować współczynników; tak więc albo kończysz na włączeniu wszystkich współczynników do modelu, albo żadnego z nich. W przeciwieństwie do tego, LASSO wykonuje zarówno skurcz parametrów, jak i wybór zmiennych automatycznie. Jeśli niektóre z twoich zmiennych towarzyszących są silnie skorelowane, możesz spojrzeć na Elastyczną Siatkę [3] zamiast LASSO.
Osobiście poleciłbym użycie nieujemnej Garotte (NNG) [1], ponieważ jest ona spójna pod względem estymacji i wyboru zmiennych [2]. W przeciwieństwie do LASSO i regresji grzbietu, NNG wymaga wstępnego oszacowania, które następnie zmniejsza się w kierunku źródła. W oryginalnym artykule Breiman zaleca rozwiązanie dla najmniejszych kwadratów dla wstępnego oszacowania (możesz jednak chcieć rozpocząć wyszukiwanie od rozwiązania regresji grzbietu i użyć czegoś takiego jak GCV, aby wybrać parametr kary).
Jeśli chodzi o dostępne oprogramowanie, zaimplementowałem oryginalny NNG w MATLAB (na podstawie oryginalnego kodu FORTRAN Breimana). Możesz pobrać go z:
http://www.emakalic.org/blog/wp-content/uploads/2010/04/nngarotte.zip
BTW, jeśli wolisz rozwiązanie bayesowskie, sprawdź [4,5].
Bibliografia:
[1] Breiman, L. Lepsza regresja podzbioru przy użyciu nieujemnej techniki Garrote Technometrics, 1995, 37, 373–384
[2] Yuan, M. i Lin, Y. W nieujemnym estymatorze Garrotte Journal of Royal Statistics Society (Series B), 2007, 69, 143-161
[3] Zou, H. & Hastie, T. Regularyzacja i selekcja zmiennych za pomocą elastycznej siatki Journal of Royal Statistics Society (Series B), 2005, 67, 301-320
[4] Park, T. i Casella, G. The Bayesian Lasso Journal of American Statistics Association, 2008, 103, 681–686
[5] Kyung, M .; Gill, J .; Ghosh, M. & Casella, G. Regresja karana, błędy standardowe i analiza bayesowska Lassosa Bayesa, 2010, 5, 369-412