Tak, regularyzację można stosować we wszystkich metodach liniowych, w tym zarówno w regresji, jak i klasyfikacji. Chciałbym pokazać, że nie ma zbyt dużej różnicy między regresją a klasyfikacją: jedyną różnicą jest funkcja straty.
W szczególności istnieją trzy główne elementy metody liniowej, funkcja strat, regularyzacja, algorytmy . Tam, gdzie funkcja straty plus regularyzacja jest funkcją celu w problemie w formie optymalizacji, a algorytm jest sposobem na jego rozwiązanie (funkcja celu jest wypukła, nie będziemy omawiać w tym poście).
L(y^,y)=(y^−y)2L(y^,y)=|y^−y|L(⋅)yy^
L(y^,y)=log(1+exp(−y^y))L(y^,y)=(1−y^y)+y{−1,1}y^y^
W ustawieniach regularyzacji wspomniałeś o regularyzacji L1 i L2, istnieją również inne formy, które nie zostaną omówione w tym poście.
Dlatego na wysokim poziomie metoda liniowa jest
minimizew ∑x,yL(w⊤x,y)+λh(w)
Jeśli zastąpisz funkcję Utrata od ustawienia regresji do utraty logistyki, regresję logistyczną otrzymasz z regularyzacją.
Na przykład w regresji grzbietu problemem optymalizacji jest
minimizew ∑x,y(w⊤x−y)2+λw⊤w
Jeśli zastąpisz funkcję straty utratą logistyczną, problem stanie się
minimizew ∑x,ylog(1+exp(−w⊤x⋅y))+λw⊤w
Tutaj masz regresję logistyczną z regularyzacją L2.
Tak to wygląda w zabawkowym zsyntetyzowanym zestawie danych binarnych. Lewy rysunek to dane z modelem liniowym (granica decyzji). Prawa figura to kontur funkcji celu (oś xiy przedstawia wartości dla 2 parametrów.). Zestaw danych został wygenerowany z dwóch Gaussa, a my dopasowujemy model regresji logistycznej bez przechwytywania, więc są tylko dwa parametry, które możemy wizualizować na odpowiedniej rycinie.
Niebieskie linie to regresja logistyczna bez regularyzacji, a czarne linie to regresja logistyczna z regularyzacją L2. Niebieskie i czarne punkty na prawej figurze są optymalnymi parametrami dla funkcji celu.
λ0
Oto kolejny przykład z regularyzacją L1.
Zauważ, że celem tego eksperymentu jest próba pokazania, jak działa normalizacja w regresji logistycznej, ale nie argumentowanie, że model regulowany jest lepszy.
λλ0
wxyy^=f(x)=w⊤x1
yy∈{−1,1}
y^=w⊤xy^yy^=w⊤x{−1,1}y^
y∈{0,1}
Kod można znaleźć w mojej innej odpowiedzi tutaj.
Czy jest jakieś intuicyjne wyjaśnienie, dlaczego regresja logistyczna nie zadziała w przypadku idealnej separacji? A dlaczego dodanie regularyzacji to naprawi?