Dlaczego warto stosować regularyzację L1 w stosunku do L2?


10

Prowadząc model regresji liniowej za pomocą funkcji straty, dlaczego powinienem używać zamiast regularyzacji ?L.1L.2)

Czy lepiej jest zapobiegać przeuczeniu? Czy jest deterministyczny (więc zawsze jest unikalnym rozwiązaniem)? Czy jest lepszy w wyborze funkcji (ponieważ produkuje rzadkie modele)? Czy rozkłada wagi między funkcjami?


2
L2 nie dokonuje wyboru zmiennych, więc L1 jest w tym zdecydowanie lepszy.
Michael M,

Odpowiedzi:


5

Zasadniczo dodajemy termin regularyzacji, aby zapobiec tak doskonałemu dopasowaniu współczynników do nadmiernego dopasowania.

Różnica między L1 i L2 to L1 to suma wag, a L2 to tylko suma kwadratów wag.

L1 nie może być stosowane w podejściach opartych na gradiencie, ponieważ nie można go odróżnić w przeciwieństwie do L2

L1 pomaga dokonywać wyboru funkcji w rzadkich przestrzeniach funkcji. Wybór funkcji polega na tym, aby wiedzieć, które funkcje są pomocne, a które nadmiarowe.

Różnicę między ich właściwościami można podsumować jako:

l1 vs l2


1
Nie jest prawdą, że „L1 nie może być stosowane w podejściach gradientowych”. Keras obsługuje to na przykład. Tak, pochodna jest zawsze stała, więc trudniej jest zejściu gradientu znaleźć minimum. Ale regularyzacja jest małym terminem w ramach funkcji straty, więc nie jest bardzo ważna w wielkim schemacie rzeczy.
Ricardo Cruz,

-1

L2 ma jedną bardzo ważną zaletę dla L1, a mianowicie niezmienność rotacji i skali.

Jest to szczególnie ważne w zastosowaniu geograficznym / fizycznym.

Powiedzmy, że Twój technik przypadkowo zainstalował czujnik w kącie 45 stopni, wpłynie to na L1, podczas gdy L2 (odległość euklidesowa) pozostanie taki sam.


4
To wcale nie jest odpowiedź na pytanie.
kbrose

Czy mógłbyś wyjaśnić niezmienność?
aneesh joshi

@Chati, pytanie dotyczy regularyzacji. Mylisz to z innymi zastosowaniami 1-norm i 2-norm w funkcjach strat.
Ricardo Cruz,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.