Czy elastyczna regularyzacja sieci jest zawsze lepsza niż Lasso i Ridge, ponieważ wydaje się, że rozwiązuje ona wady tych metod? Czym jest intuicja i jaka matematyka kryje się za elastyczną siatką?
Czy elastyczna regularyzacja sieci jest zawsze lepsza niż Lasso i Ridge, ponieważ wydaje się, że rozwiązuje ona wady tych metod? Czym jest intuicja i jaka matematyka kryje się za elastyczną siatką?
Odpowiedzi:
Tak, elastyczna siatka jest zawsze preferowana w stosunku do regresji lasso i kalenicy, ponieważ rozwiązuje ona ograniczenia obu metod, a jednocześnie uwzględnia każdą z nich jako przypadki szczególne. Jeśli więc rozwiązanie grzbietowe lub lasso jest rzeczywiście najlepsze, wówczas każda dobra procedura wyboru modelu zidentyfikuje to jako część procesu modelowania.
Komentarze do mojego postu wskazują, że zalety elastycznej siatki nie są niekwalifikowane. Utrzymuję przekonanie, że ogólna regresja elastycznej sieci jest nadal lepsza niż sama regularyzacja lub . W szczególności uważam, że punkty sporne między mną a innymi są bezpośrednio związane z tym, jakie założenia jesteśmy gotowi poczynić w związku z procesem modelowania. W przypadku silnej wiedzy na temat danych bazowych niektóre metody będą preferowane od innych. Jednak moja preferencja dla elastycznej siatki jest zakorzeniona w moim sceptycyzmie, że można śmiało wiedzieć, że lub jest prawdziwym modelem.
To jest trochę okrągłe. Wybacz mi, jeśli jest to trochę glib, ale jeśli wiesz, że LASSO (grzbiet) jest najlepszym rozwiązaniem, nie będziesz się zastanawiać, jak odpowiednio go wymodelować; wystarczy dopasować model LASSO (kalenica). Jeśli jesteś absolutnie pewien, że poprawną odpowiedzią jest regresja LASSO (grzbiet), to jesteś wyraźnie przekonany, że nie byłoby powodu, aby marnować czas na zakładanie elastycznej siatki. Ale jeśli jesteś nieco mniej pewny, czy LASSO (grzbiet) jest właściwym sposobem postępowania, uważam, że warto oszacować bardziej elastyczny model i ocenić, jak mocno dane wspierają wcześniejsze przekonanie.
Jest to również prawdą, ale myślę, że jest kołowy z podobnego powodu: jeśli oszacowałeś optymalne rozwiązanie i stwierdzisz, że to jest to model obsługiwany przez dane. Z jednej strony tak, twój oszacowany model nie jest prawdziwym modelem, ale muszę się zastanawiać, skąd wiadomo, że prawdziwy model to (lub ) przed jakimkolwiek oszacowaniem modelu. Mogą istnieć domeny, w których posiadasz taką wiedzę, ale moja praca zawodowa nie jest jedną z nich.
Jest to istotne tylko wtedy, gdy masz ścisłe ograniczenia czasowe / komputerowe; w przeciwnym razie to tylko uciążliwość. GLMNET to złoty algorytm do szacowania elastycznych rozwiązań sieciowych. Użytkownik podaje pewną wartość alfa i wykorzystuje właściwości ścieżki rozwiązania regularyzacji do szybkiego oszacowania rodziny modeli dla różnych wartości wielkości kary , i często może oszacować tę rodzinę rozwiązań szybciej niż oszacowanie tylko jedno rozwiązanie dla określonej wartości . Tak, więc korzystanie z GLMNET przenosi cię do dziedziny stosowania metod w stylu siatki (iteruj po niektórych wartościach i pozwól GLMNET wypróbować różne ), ale jest dość szybki.
To prawda, ale na etapie, w którym zastanawia się, którą metodę zastosować, nie wiadomo, która z elastycznych siatek, grzbietów lub LASSO jest najlepsza. Jeśli jednym z powodów, dla których najlepszym rozwiązaniem musi być LASSO lub regresja kalenicy, jesteśmy w domenie roszczenia (1). Jeśli nadal nie jesteśmy pewni, który jest najlepszy, możemy przetestować rozwiązania LASSO, kalenicy i elastycznej siatki i dokonać wyboru ostatecznego modelu w tym momencie (lub, jeśli jesteś naukowcem, po prostu napisz swoją pracę na temat wszystkich trzech ). Ta sytuacja wcześniejszej niepewności albo umieści nas w dziedzinie roszczenia (2), gdzie prawdziwym modelem jest LASSO / grzbiet, ale nie wiedzieliśmy tego wcześniej i przypadkowo wybieramy niewłaściwy model z powodu źle zidentyfikowanych hiperparametrów, lub elastyczna siatka jest właściwie najlepszym rozwiązaniem.
Prawidłowa walidacja modelu jest integralną częścią każdego przedsiębiorstwa uczącego się maszynowo. Sprawdzanie poprawności modelu jest zwykle również kosztownym krokiem, więc staramy się tutaj zminimalizować nieefektywności - jeśli jedna z tych nieefektywności niepotrzebnie próbuje wypróbować wartości , o których wiadomo, że są daremne, może to sugerować jedna z nich. Tak, z pewnością rób to, jeśli czujesz się dobrze z mocnym oświadczeniem na temat sposobu uporządkowania danych - ale wróciliśmy do terytorium roszczenia (1) i roszczenia (2).
Zdecydowanie polecam przeczytanie literatury na temat tych metod, poczynając od oryginalnego papieru na elastycznej siatce. Artykuł rozwija intuicję i matematykę i jest bardzo czytelny. Jego odtworzenie odbyłoby się ze szkodą dla wyjaśnień autorów. Ale podsumowaniem wysokiego poziomu jest to, że elastyczna siatka jest wypukłą sumą kar grzbietowych i lasso, więc funkcja celu dla modelu błędu Gaussa wygląda następująco:
dla
Hui Zou i Trevor Hastie. „ Regularyzacja i wybór zmiennych za pomocą elastycznej siatki .” Statystyka JR. Soc., Tom 67 (2005), część 2., str. 301–320.
Richard Hardy wskazuje, że jest to bardziej szczegółowo opisane w Hastie i in. „Elementy uczenia statystycznego” rozdziały 3 i 18.
Oto pytanie postawione mi w komentarzach:
Pozwól, że zasugeruję jeszcze jeden argument przeciwko twojemu punktowi widzenia, że elastyczna siatka jest jednolicie lepsza niż sam lasso lub grzbiet. Wyobraź sobie, że dodajemy kolejną karę do elastycznej funkcji kosztu netto, np. Koszt , z hiperparametrem . Nie sądzę, aby było wiele badań na ten temat, ale założę się, że jeśli przeprowadzisz wyszukiwanie krzyżowe na siatce parametrów 3d, otrzymasz jako wartość optymalną. Jeśli tak, to czy argumentujesz, że zawsze dobrym pomysłem jest uwzględnienie również kosztu .
Rozumiem, że duch tego pytania brzmi: „Jeśli jest tak, jak twierdzisz, a dwie kary są dobre, dlaczego nie dodać kolejnej?” Ale myślę, że odpowiedź leży w tym, dlaczego przede wszystkim regularyzujemy.
Pomijając jeden z tych problemów, normalizowany model może nadal przewyższać model ML, ponieważ właściwości skurczowe estymatorów są „pesymistyczne” i pociągają współczynniki w kierunku 0.
Generalnie zgadzam się z odpowiedzią @Sycorax, ale chciałbym dodać trochę kwalifikacji.
Mówienie, że „elastyczna siatka jest zawsze preferowana nad regresją lasso i kalenicy” może być nieco zbyt silne. W małych lub średnich próbkach elastyczna siatka może nie wybrać czystego LASSO lub czystego roztworu kalenicy, nawet jeśli ten pierwszy lub drugi jest rzeczywiście odpowiedni. Biorąc pod uwagę wcześniejszą wiedzę, warto wybrać LASSO lub kalenicę zamiast elastycznej siatki. Jednak przy braku wcześniejszej wiedzy preferowanym rozwiązaniem powinna być siatka elastyczna.
Ponadto elastyczna siatka jest obliczeniowo droższa niż LASSO lub kalenica, ponieważ względną wagę LASSO w porównaniu z kalenicą należy wybrać za pomocą walidacji krzyżowej. Jeżeli rozsądna siatka wartości alfa wynosi [0,1] przy wielkości kroku 0,1, oznacza to, że elastyczna siatka jest około 11 razy droższa obliczeniowo niż LASSO lub kalenica. (Ponieważ LASSO i grzbiet nie mają takiej samej złożoności obliczeniowej, wynik jest tylko wstępnym przypuszczeniem.)