Twoja funkcja utraty nie działałaby, ponieważ zachęca do ustawienia na dowolną skończoną wartość i na .θ1θ0−∞
Zawołajmy resztkowego na .r(x,y)=1m∑mi=1hθ(x(i))−yh
Twoim celem jest, aby wartość jak najbardziej zbliżona do zera, a nie tylko minimalizowana . Wysoka wartość ujemna jest tak samo zła, jak wysoka wartość dodatnia.r
EDYCJA: Możesz temu przeciwdziałać poprzez sztuczne ograniczenie przestrzeni parametrów (np. Chcesz ). W takim przypadku optymalne parametry leżą w określonych punktach na granicy przestrzeni parametrów. Zobacz https://math.stackexchange.com/q/896388/12467 . Nie tego chcesz.Θ|θ0|<10
Dlaczego używamy straty kwadratowej
Kwadratu siły błędach oraz dopasować. Jest to zminimalizowane przy , jeśli to możliwe, i zawsze wynosi , ponieważ jest kwadratem liczby rzeczywistej .h(x)yu=v≥0u−v
|u−v|działałoby również w powyższym celu, podobnie jak , z dodatnią liczbą całkowitą. Pierwszy z nich jest faktycznie używany (nazywa się to stratą ; możesz również natknąć się na stratę , która jest inną nazwą błędu kwadratu).(u−v)2nnℓ1ℓ2
Dlaczego więc kwadratowa strata jest lepsza od tych? Jest to głębokie pytanie dotyczyło powiązań między częstościowym i Bayesa wnioskowania. Krótko mówiąc, błąd kwadratowy odnosi się do szumu Gaussa .
Jeśli dane nie pasuje dokładnie wszystkie punkty, czyli nie zero pewnym momencie nie jest ważne co wybrać (jak zawsze stanie się w praktyce), które mogą być ze względu na hałas . W każdym złożonym systemie będzie wiele małych niezależnych przyczyn różnicy między twoim modelem a rzeczywistością : błąd pomiaru, czynniki środowiskowe itp. Zgodnie z Central Limit Theorem (CLT) całkowity hałas rozkładałby się normalnie , tj. Zgodnie z Rozkład Gaussa . Chcemy wybrać najlepsze dopasowanieh(x)−yθ h yθbiorąc pod uwagę ten rozkład hałasu. Załóżmy, że , część której twój model nie może wyjaśnić, jest zgodna z rozkładem Gaussa . Używamy wielkich liter, ponieważ mówimy teraz o zmiennych losowych.R=h(X)−YyN(μ,σ)
Rozkład Gaussa ma dwa parametry, znaczy i wariancja . Zobacz tutaj, aby lepiej zrozumieć te warunki.μ=E[R]=1m∑ihθ(X(i))−Y(i))σ2=E[R2]=1m∑i(hθ(X(i))−Y(i)))2
Zastanów się , to błąd systematyczny naszych pomiarów. Użyj aby poprawić błąd systematyczny, tak aby (ćwiczenie dla czytelnika). Nic więcej nie można tutaj zrobić.μh′(x)=h(x)−μμ′=E[R′]=0
σ reprezentuje błąd losowy , zwany także szumem . Gdy zajmiemy się składnikiem szumu systematycznego, tak jak w poprzednim punkcie, najlepszy predyktor jest uzyskiwany, gdy jest zminimalizowany. Innymi słowy, najlepszym predyktorem jest ten o najwęższym rozkładzie (najmniejsza wariancja) wokół przewidywanej wartości, tj. Najmniejszej wariancji. Minimalizacja najmniejszej straty kwadratowej jest tym samym, co minimalizacja wariancji! To wyjaśnia, dlaczego strata najmniejszych kwadratów działa na wiele problemów. Podstawowy hałas jest bardzo często gaussowski z powodu CLT, a minimalizacja kwadratu błędu okazuje się słusznaσ2=1m∑i(hθ(X(i))−Y(i)))2 rzecz do zrobienia!
Jednoczesnego podjęcia zarówno średniej i wariancji pod uwagę, obejmują odchylenia termin w naszej klasyfikatora (do obsługi błędu systematycznego ), a następnie zminimalizować straty kwadratowy.μ
Dalsze pytania:
Strata najmniejszych kwadratów = błąd Gaussa. Czy każda inna funkcja strat odpowiada również rozkładowi hałasu? Tak. Na przykład strata (minimalizowanie wartości bezwzględnej zamiast błędu do kwadratu) odpowiada rozkładowi Laplace'a (spójrz na wzór pliku PDF w pasku informacyjnym - to tylko Gaussa z zamiast ). Popularną stratą dla rozkładów prawdopodobieństwa jest dywergencja KL . - Rozkład Gaussa jest bardzo dobrze umotywowany ze względu na centralne twierdzenie graniczneℓ1|x−μ|(x−μ)2, które omówiliśmy wcześniej. Kiedy rozkład Laplace'a jest właściwym modelem hałasu? Są pewne okoliczności, w których to naturalnie, ale częściej jako wymusza rzadkość : strata jest najmniej wypukła spośród wszystkich wypukłych strat.ℓ1
- Jak Jan wspomina w komentarzach, minimalizator kwadratowych odchyleń jest średnią, a minimalizator sumy absolutnych odchyleń jest medianą . Dlaczego chcielibyśmy znaleźć medianę reszt zamiast średniej? W przeciwieństwie do średniej, mediana nie jest zrzucana przez jedną bardzo dużą wartość odstającą. Tak więc utrata służy do zwiększenia niezawodności. Czasami używana jest kombinacja tych dwóch.ℓ1
Czy są sytuacje, w których minimalizujemy zarówno średnią, jak i wariancję? Tak. Sprawdź Kompromis odchylenie bias . Tutaj patrzymy na zestaw klasyfikatorów i pytamy, który z nich jest najlepszy. Jeśli zapytamy, który zestaw klasyfikatorów jest najlepszy dla problemu, ważne jest zminimalizowanie zarówno odchylenia, jak i wariancji. Okazuje się, że zawsze istnieje między nimi kompromis i używamy regularyzacji, aby osiągnąć kompromis.hθ∈H
Odnośnie terminu12
1/2 nie ma znaczenia, a właściwie nie ma również znaczenia - oba są stałymi. Optymalna wartość pozostałaby taka sama w obu przypadkach.mθ
Wyrażenie dla gradientu staje się ładniejsze z , ponieważ 2 z wyrażenia kwadratowego znosi się.12
- Podczas pisania kodu lub algorytmów zwykle bardziej interesuje nas gradient, więc pomaga zachować zwięzłość. Możesz sprawdzić postęp, sprawdzając normę gradientu. Sama funkcja utraty jest czasami pomijana w kodzie, ponieważ jest używana tylko do sprawdzania poprawności ostatecznej odpowiedzi.
jest przydatna, jeśli można rozwiązać ten problem z opadania gradientu. Następnie gradient staje się średnią z terminów zamiast sumy, więc jego skala nie zmienia się, gdy dodasz więcej punktów danych.mm
- Wcześniej napotkałem ten problem: testuję kod z niewielką liczbą punktów i działa dobrze, ale kiedy testujesz go z całym zestawem danych, traci się precyzję, a czasem przepełnienie / niedopełnienie, tj. Twój gradient staje się
nan
lub inf
. Aby tego uniknąć, wystarczy znormalizować wrt liczbę punktów danych.
Te decyzje estetyczne służą tutaj do zachowania spójności z przyszłymi równaniami, w których dodasz warunki regularyzacji . Jeśli dodasz , parametr regulowania nie będzie zależał od rozmiaru zestawu danych i będzie bardziej zrozumiały dla różnych problemów.mλm