Jak porównują metody regulowania grzbietów, LASSO i elasticnetu? Jakie są ich zalety i wady? Doceniony zostanie również każdy dobry artykuł techniczny lub notatki z wykładu.
Jak porównują metody regulowania grzbietów, LASSO i elasticnetu? Jakie są ich zalety i wady? Doceniony zostanie również każdy dobry artykuł techniczny lub notatki z wykładu.
Odpowiedzi:
W książce The Elements of Statistics Learning Hastie i in. zapewniają bardzo wnikliwe i dokładne porównanie tych technik skurczu. Książka jest dostępna online ( pdf ). Porównanie odbywa się w rozdziale 3.4.3, strona 69.
Główną różnicą między Lasso i Ridge jest kara, której używają. Grzbiet wykorzystuje kary określenie, które ogranicza wielkość wektora współczynników. Lasso stosuje karę L 1, która narzuca rzadkość między współczynnikami, a tym samym sprawia, że dopasowany model jest bardziej interpretowalny. Elastyczna siatka została wprowadzona jako kompromis między tymi dwiema technikami i ma karę, która jest mieszanką norm L 1 i L 2 .
Podsumowując, oto kilka istotnych różnic między Lasso, Ridge i Elastic-net:
Bardzo polecam zapoznać się ze wstępem do statystycznej książki do nauki (Tibshirani i in., 2013).
Powodem tego jest to, że książka ze statystycznymi elementami do nauki jest przeznaczona dla osób z zaawansowanym wykształceniem w dziedzinie nauk matematycznych. We wstępie do ISL autorzy piszą:
Wprowadzenie do statystycznego uczenia wynikały z postrzeganej potrzeby szerszego i mniej technicznym leczeniu tych tematów. [...]
Wprowadzenie do uczenia statystycznego jest odpowiednie dla zaawansowanych studentów i studentów studiów magisterskich w dziedzinie statystyki lub pokrewnych dziedzin ilościowych lub dla osób z innych dyscyplin, które chcą korzystać ze statystycznych narzędzi edukacyjnych do analizy swoich danych.
Powyższe odpowiedzi są bardzo jasne i zawierają wiele informacji. Chciałbym dodać jeden drobny punkt z punktu widzenia statystyki. Weźmy jako przykład regresję grzbietu. Jest to rozszerzenie regresji najmniejszych kwadratów w celu rozwiązania problemów wielokoliniowości, gdy istnieje wiele skorelowanych cech. Jeśli regresja liniowa wynosi
Y=Xb+e
Rozwiązanie równania normalnego dla wielokrotnej regresji liniowej
b=inv(X.T*X)*X.T*Y
Normalnym rozwiązaniem równania dla regresji kalenicowej jest
b=inv(X.T*X+k*I)*X.T*Y.
Jest to tendencyjny estymator dla b i zawsze możemy znaleźć warunek karny k, który sprawi, że średni błąd kwadratowy regresji Ridge'a będzie mniejszy niż błąd regresji OLS.
W przypadku LASSO i Elastic-Net nie mogliśmy znaleźć takiego rozwiązania analitycznego.