Niektóre z moich myśli mogą być niepoprawne.
Rozumiem, dlaczego mamy taki projekt (w przypadku zawiasu i utraty logistyki), ponieważ chcemy, aby funkcja celu była wypukła.
Wypukłość jest z pewnością przyjemną właściwością, ale myślę, że najważniejszym powodem jest to, że chcemy, aby funkcja celu miała pochodne niezerowe , abyśmy mogli wykorzystać pochodne do jej rozwiązania. Funkcja celu może być niewypukła, w takim przypadku często zatrzymujemy się na lokalnych optykach lub punktach siodłowych.
i co ciekawe, karane są również poprawnie sklasyfikowane przypadki, jeśli są słabo sklasyfikowane. To naprawdę dziwny projekt.
Myślę, że taki projekt radzi modelowi nie tylko dokonywać właściwych prognoz, ale także być pewnym ich prognoz. Jeśli nie chcemy, aby poprawnie sklasyfikowane instancje zostały ukarane, możemy na przykład przesunąć utratę zawiasu (niebieską) w lewo o 1, aby nie otrzymywały żadnej straty. Ale wierzę, że często prowadzi to do gorszego wyniku w praktyce.
jakie ceny musimy płacić, używając różnych „funkcji utraty proxy”, takich jak utrata zawiasów i utrata logistyki?
IMO, wybierając różne funkcje strat, wprowadzamy do modelu różne założenia. Na przykład utrata regresji logistycznej (czerwona) zakłada rozkład Bernoulliego, utrata MSE (zielona) zakłada szum Gaussa.
Po przykładzie najmniejszych kwadratów vs. regresji logistycznej w PRML dodałem utratę zawiasów dla porównania.
Jak pokazano na rysunku, utrata zawiasów i regresja logistyczna / entropia krzyżowa / prawdopodobieństwo-log / softplus dają bardzo bliskie wyniki, ponieważ ich funkcje celu są bliskie (rysunek poniżej), podczas gdy MSE jest ogólnie bardziej wrażliwy na wartości odstające. Utrata zawiasu nie zawsze ma unikalne rozwiązanie, ponieważ nie jest ściśle wypukła.
Jakkolwiek jedną ważną właściwością utraty zawiasów jest to, że punkty danych daleko od granicy decyzji nic nie przyczyniają się do utraty, rozwiązanie będzie takie samo po usunięciu punktów.
Pozostałe punkty nazywane są wektorami pomocniczymi w kontekście SVM. Natomiast SVM stosuje termin regulizujący, aby zapewnić maksymalną marżę i unikalne rozwiązanie.