Widok dla częstotliwości 👀
W pewnym sensie możemy myśleć o obu regularyzacjach jako o „zmniejszaniu ciężarów” ; L2 minimalizuje euklidesową normę odważników, a L1 minimalizuje normę Manhattanu. Kierując się tym tokiem myślenia, możemy wnioskować, że ekwipotencjały L1 i L2 są odpowiednio kuliste i mają kształt rombu, więc L1 jest bardziej prawdopodobne, że doprowadzi do rzadkich rozwiązań, jak pokazano w Bishop's Pattern Recognition and Machine Learning :
Widok bayesowski 👀
Jednak, aby zrozumieć, w jaki sposób priors odnoszą się do modelu liniowego , musimy zrozumieć Bayesa interpretację zwykłej regresji liniowej . Blog Katherine Bailey jest do tego znakomitą lekturą. Krótko mówiąc, w naszym modelu liniowym zakładamy normalnie rozłożone błędy id
y = θ⊤X + ϵ
N.yja, i = 1 , 2 , … , Nϵk∼ N.( 0 , σ)
yp ( y | X , θ ; ϵ ) = N( θ⊤X , σ)
Jak się okazuje ... Estymator największego prawdopodobieństwa jest identyczny z minimalizowaniem błędu kwadratu między przewidywanymi a rzeczywistymi wartościami wyjściowymi przy założeniu normalności błędu.
θ^MLE= argmaxθlogP.( y| θ)= argminθ∑i = 1n( yja- θ⊤xja)2)
Regularyzacja jako nakładanie priorytetów na wagi
Gdybyśmy umieścili nierównomierne uprzednio na wagach regresji liniowej, maksymalne oszacowanie prawdopodobieństwa a posteriori (MAP) wynosi:
θ^MAPA= argmaxθlogP.( y| θ)+logP.( θ )
Jak wynika z postu na blogu Briana Kenga , jeśli jest rozkładem Laplace'a, jest to równoważne z regularyzacją L1 na .P.( θ )θ
Podobnie, jeśli jest rozkładem Gaussa, jest to równoważne z regularyzacją L2 na .P.( θ )θ
Teraz mamy inne spojrzenie na to, dlaczego umieszczenie Laplace'a na wadze bardziej prawdopodobne jest wywołanie rzadkości: ponieważ rozkład Laplace'a jest bardziej skoncentrowany wokół zera , nasze wagi są większe od zera.