Jak zdecydować, której regularyzacji (L1 lub L2) użyć?
Jaki jest twój cel Oba mogą poprawić uogólnienie modelu poprzez karanie współczynników, ponieważ cechy o przeciwnych stosunkach do wyniku mogą się „kompensować” (duża wartość dodatnia jest równoważona przez dużą wartość ujemną). Może to powstać, gdy występują elementy współliniowe. Niewielkie zmiany w danych mogą powodować radykalnie różne oszacowania parametrów (oszacowania dużej wariancji). Kary mogą ograniczyć oba współczynniki do mniejszych. (Hastie i in., Elements of Statistics Learning , 2. wydanie, s. 63)
Jakie są zalety i wady każdej z regulacji L1 / L2?
NN
Normalizacja L1 jest czasem stosowana jako metoda wyboru cech. Załóżmy, że masz pewną ograniczoną liczbę funkcji, których możesz użyć (ponieważ zbieranie danych dla wszystkich funkcji jest drogie lub masz ścisłe ograniczenia techniczne, ile wartości możesz przechowywać itp.). Możesz spróbować dostroić karę L1, aby uzyskać pożądaną liczbę niezerowych funkcji.
Regularyzacja L2 może rozwiązać problem wielokoliniowości poprzez ograniczenie normy współczynnika i zachowanie wszystkich zmiennych. Jest mało prawdopodobne, aby oszacować współczynnik dokładnie na 0. Nie jest to niekoniecznie wada, chyba że z jakiegoś powodu ważny jest rzadki wektor współczynników.
W ustawieniach regresji jest to „klasyczne” rozwiązanie problemu szacowania regresji z większą liczbą funkcji niż obserwacji. Normalizacja L2 może oszacować współczynnik dla każdej cechy, nawet jeśli jest więcej cech niż obserwacji (w rzeczywistości była to pierwotna motywacja do „regresji grzbietu”).
Alternatywnie elastyczna siatka pozwala na regularyzację L1 i L2 w szczególnych przypadkach. Typowym przypadkiem zastosowania dla naukowca zajmującego się danymi w branży jest to, że chcesz wybrać najlepszy model, ale niekoniecznie obchodzi go, czy zostanie ukarany za pomocą L1, L2 lub obu. Elastyczna siatka sprawdza się w takich sytuacjach.
Czy zaleca się najpierw dokonać wyboru funkcji za pomocą L1, a następnie zastosować L2 do tych wybranych zmiennych?
Nie jestem zaznajomiony z publikacją proponującą potok L1, a następnie L2, ale to prawdopodobnie tylko ignorancja z mojej strony. Wydaje się, że nie ma w tym nic złego. Przeprowadziłbym przegląd literatury.
Istnieje kilka przykładów podobnych „fazowanych” rurociągów. Jednym z nich jest „zrelaksowane lasso”, które stosuje regresję lasso dwa razy , raz w celu zmniejszenia z dużej grupy do małej grupy cech, a następnie w celu oszacowania współczynników do zastosowania w modelu. Wykorzystuje to krzyżową weryfikację na każdym etapie, aby wybrać wielkość kary. Powodem jest to, że na pierwszym etapie weryfikujesz krzyżowo i prawdopodobnie wybierzesz dużą karę, aby odrzucić niepotrzebne predyktory; w drugim kroku weryfikujesz krzyżowo i prawdopodobnie wybierzesz mniejszą karę (a zatem większe współczynniki). Zostało to krótko wspomniane w Elements of Statistics Learning przywołując Nicolai Meinshausen („Relaxed Lasso.” Statystyka obliczeniowa i analiza danych Volume 52, Issue 1, 15 września 2007, str. 374-393).
Użytkownik @amoeba sugeruje również potok L1-następnie-OLS; może to być miłe, ponieważ ma tylko 1 hiperparametr dla wielkości kary L1, więc wymagane byłoby mniej skrzypania.
Jednym z problemów, który może powstać w przypadku dowolnego „etapowego” potoku analizy, który wykonuje niektóre kroki, a następnie kilka innych kroków osobno, jest brak „widoczności” między tymi różnymi algorytmami, więc jeden proces dziedziczy wszelkie szpiegowanie danych, które miało miejsce w poprzednich krokach. Ten efekt nie jest bez znaczenia; źle pomyślane modelowanie może prowadzić do modeli śmieciowych.
Jednym ze sposobów zabezpieczenia się przed skutkami ubocznymi podsłuchiwania danych jest wzajemna weryfikacja wszystkich wyborów. Jednak zwiększone koszty obliczeniowe mogą okazać się wygórowane.