Jakie są skutki wyboru różnych funkcji strat w klasyfikacji do przybliżonej straty 0-1

Wiemy, że niektóre funkcje celu są łatwiejsze do optymalizacji, a niektóre są trudne. I jest wiele funkcji utraty, których chcemy używać, ale trudnych w użyciu, na przykład utrata 0-1. Dlatego znajdziemy kilka funkcji utraty proxy do wykonania pracy. Na przykład używamy utraty zawiasu lub straty logistycznej do „przybliżenia” utraty 0-1.

Poniższy wątek pochodzi z książki PRML Chrisa Bishopa . Utrata zawiasu jest wykreślona na niebiesko, Utrata kłody na czerwono, Utrata kwadratu na zielono, a błąd 0/1 na czarno.

Rozumiem, dlaczego mamy taki projekt (w przypadku zawiasu i utraty logistyki), ponieważ chcemy, aby funkcja celu była wypukła.

Patrząc na utratę zawiasów i utratę logistyki, bardziej karze za silnie błędnie sklasyfikowane instancje , a co ciekawe, karane są również poprawnie sklasyfikowane instancje, jeśli są słabo sklasyfikowane . To naprawdę dziwny projekt.

Moje pytanie brzmi: jakie ceny musimy zapłacić, używając różnych „funkcji utraty proxy”, takich jak utrata zawiasów i utrata logistyki?

— Haitao Du
źródło

W regresji wybranie straty kwadratowej jest łatwiejsze do wykonania w porównaniu do utraty wartości bezwzględnej. Ale kwadratowa strata jest bardziej wrażliwa na wartości odstające. Czy zatem powinien być również wrażliwy na pewien rodzaj danych?

— Haitao Du

Łatwiejszym rozwiązaniem jest opracowanie optymalnych przewidywanych prawdopodobieństw, które nie wymagają funkcji użyteczności. Funkcja użyteczności / utraty może być później zastosowana przez faktycznego decydenta. Klasyfikacja jest równoznaczna z podjęciem decyzji przez osobę podejmującą decyzję i wymaga zbyt dużej wiedzy z góry.

— Frank Harrell,

@FrankHarrell Dzięki, i używam podejścia, o którym wspomniałeś w pracy, w którym oddzielamy prognozowanie i operacje biznesowe. Jednak wciąż nie jest to zoptymalizowane, ale chciwe lokalne rozwiązanie oparte na scenie, prawda? Czy to „polityka strusia”?

— Haitao Du

Nie może to prowadzić do optymalnych decyzji. Funkcja straty / użyteczności / kosztu nie pochodzi z predyktorów modelu.

— Frank Harrell,

+1. Minimalizacja straty logistycznej odpowiada maksymalnemu prawdopodobieństwu dwumianowemu. Minimalizowanie strat z błędu kwadratu odpowiada maksymalizacji prawdopodobieństwa Gaussa (to tylko regresja OLS; dla klasyfikacji 2 klas faktycznie odpowiada LDA). Czy wiesz, czy minimalizacja utraty zawiasów odpowiada maksymalizacji innego prawdopodobieństwa? Czy istnieje jakiś model probabilistyczny odpowiadający utracie zawiasów?

— ameba mówi Przywróć Monikę

Odpowiedzi:

Niektóre z moich myśli mogą być niepoprawne.

Rozumiem, dlaczego mamy taki projekt (w przypadku zawiasu i utraty logistyki), ponieważ chcemy, aby funkcja celu była wypukła.

Wypukłość jest z pewnością przyjemną właściwością, ale myślę, że najważniejszym powodem jest to, że chcemy, aby funkcja celu miała pochodne niezerowe , abyśmy mogli wykorzystać pochodne do jej rozwiązania. Funkcja celu może być niewypukła, w takim przypadku często zatrzymujemy się na lokalnych optykach lub punktach siodłowych.

i co ciekawe, karane są również poprawnie sklasyfikowane przypadki, jeśli są słabo sklasyfikowane. To naprawdę dziwny projekt.

Myślę, że taki projekt radzi modelowi nie tylko dokonywać właściwych prognoz, ale także być pewnym ich prognoz. Jeśli nie chcemy, aby poprawnie sklasyfikowane instancje zostały ukarane, możemy na przykład przesunąć utratę zawiasu (niebieską) w lewo o 1, aby nie otrzymywały żadnej straty. Ale wierzę, że często prowadzi to do gorszego wyniku w praktyce.

jakie ceny musimy płacić, używając różnych „funkcji utraty proxy”, takich jak utrata zawiasów i utrata logistyki?

IMO, wybierając różne funkcje strat, wprowadzamy do modelu różne założenia. Na przykład utrata regresji logistycznej (czerwona) zakłada rozkład Bernoulliego, utrata MSE (zielona) zakłada szum Gaussa.

Po przykładzie najmniejszych kwadratów vs. regresji logistycznej w PRML dodałem utratę zawiasów dla porównania.

Jak pokazano na rysunku, utrata zawiasów i regresja logistyczna / entropia krzyżowa / prawdopodobieństwo-log / softplus dają bardzo bliskie wyniki, ponieważ ich funkcje celu są bliskie (rysunek poniżej), podczas gdy MSE jest ogólnie bardziej wrażliwy na wartości odstające. Utrata zawiasu nie zawsze ma unikalne rozwiązanie, ponieważ nie jest ściśle wypukła.

Jakkolwiek jedną ważną właściwością utraty zawiasów jest to, że punkty danych daleko od granicy decyzji nic nie przyczyniają się do utraty, rozwiązanie będzie takie samo po usunięciu punktów.

Pozostałe punkty nazywane są wektorami pomocniczymi w kontekście SVM. Natomiast SVM stosuje termin regulizujący, aby zapewnić maksymalną marżę i unikalne rozwiązanie.

— dontloo
źródło

Dziękuję za odpowiedź. Czy jest możliwe stworzenie intuicyjnych demonstracji pokazujących wpływ różnych strat? Tak jak pokazujemy wpływ wartości odstających regresji przy użyciu straty kwadratowej vs. najmniejszej straty bezwzględnej.

— Haitao Du

@ hxd1011 nie ma za co, spróbuję później dodać kilka wersji demonstracyjnych.

— dontloo

Utrata zawiasu jest wypukła ...

— Mustafa S Eisa

@ MustafaM.Eisa racja, dziękuję, nie miałem na myśli ściśle wypukłego ..

— dontloo

@dontloo świetna symulacja! Dziękuję Ci. Spróbuję również przesłać niektóre z moich symulacji później.

— Haitao Du

Publikowanie spóźnionej odpowiedzi, ponieważ istnieje bardzo prosta odpowiedź, o której jeszcze nie wspomniano.

jakie ceny musimy płacić, używając różnych „funkcji utraty proxy”, takich jak utrata zawiasów i utrata logistyki?

Gdy zamienisz funkcję wypukłości niewypukłej 0-1 na wypukłą surogat (np. Utratę zawiasu), w rzeczywistości rozwiązujesz teraz inny problem niż ten, który chciałeś rozwiązać (czyli zminimalizować liczbę błędów klasyfikacji). Więc zdobyć obliczeniowej ustępliwość (problem staje się wypukłe, dzięki czemu można go rozwiązać skutecznie za pomocą narzędzi wypukłej Optimization), ale w ogólnym przypadku jest faktycznie w żaden sposób odnosić się do błędu klasyfikatora, który minimalizuje „proxy” strat oraz błąd klasyfikatora, który minimalizuje straty 0-1 . Jeśli to, na czym naprawdę Ci zależało, to minimalizowanie liczby błędnych klasyfikacji, twierdzę, że to naprawdę duża cena do zapłacenia.

Należy wspomnieć, że to stwierdzenie jest najgorszy , w tym sensie, że odnosi się do dowolnej dystrybucji . W przypadku niektórych „ładnych” dystrybucji istnieją wyjątki od tej reguły. Kluczowym przykładem są rozkłady danych, które mają duże marginesy na granicy decyzji - patrz Twierdzenie 15.4 w Shalev-Shwartz, Shai i Shai Ben-David. Zrozumienie uczenia maszynowego: od teorii do algorytmów. Prasa uniwersytecka Cambridge, 2014. $\mathcal D$

— galoosh33
źródło

W idealnym przypadku funkcja straty powinna odzwierciedlać rzeczywistą stratę poniesioną przez biznes. Na przykład, jeśli klasyfikujesz towary uszkodzone, utrata błędnej klasyfikacji może wyglądać następująco:

znakowanie uszkodzonych towarów, które nie były: utracony zysk z potencjalnej sprzedaży
nie oznaczanie uszkodzonych towarów, które zostały uszkodzone: koszty przetwarzania zwrotów

— Aksakal
źródło