Jeśli statystyki służą maksymalizacji prawdopodobieństwa, to uczenie maszynowe polega na minimalizowaniu strat. Ponieważ nie wiesz, jaką stratę poniesiesz w przyszłości, zminimalizujesz przybliżenie, tj. Utratę empiryczną.
Na przykład, jeśli masz zadanie przewidywania i jesteś oceniany na podstawie liczby błędnych klasyfikacji, możesz wyszkolić parametry, aby uzyskany model wygenerował najmniejszą liczbę błędnych klasyfikacji na danych szkoleniowych. „Liczba błędnych klasyfikacji” (tj. Utrata 0-1) jest funkcją trudnej utraty do pracy, ponieważ nie można jej rozróżnić, więc przybliżasz ją płynnym „zastępczym”. Na przykład utrata dziennika jest górną granicą utraty 0-1, więc możesz ją zminimalizować, a to okaże się to samo, co maksymalizacja warunkowego prawdopodobieństwa danych. W przypadku modelu parametrycznego podejście to staje się równoważne z regresją logistyczną.
W zadaniu modelowania strukturalnego i przybliżeniu utraty logarytmicznej straty 0-1 otrzymujesz coś innego niż maksymalne prawdopodobieństwo warunkowe, zamiast tego zmaksymalizujesz iloczyn (warunkowych) marginalnych prawdopodobieństw.
Aby uzyskać lepsze przybliżenie straty, ludzie zauważyli, że model szkolenia w celu zminimalizowania straty i wykorzystanie tej straty jako oszacowania przyszłej straty jest zbyt optymistycznym oszacowaniem. Dlatego w celu dokładniejszej (rzeczywistej przyszłej straty) dodają termin korekty błędu systematycznego do straty empirycznej i minimalizują to, jest to znane jako ustrukturyzowana minimalizacja ryzyka.
W praktyce ustalenie właściwego składnika korekcji błędu systematycznego może być zbyt trudne, dlatego dodajesz wyrażenie „w duchu” terminu korekcji błędu systematycznego, na przykład suma kwadratów parametrów. Ostatecznie prawie wszystkie podejścia do nadzorowanej klasyfikacji parametrycznej w uczeniu maszynowym kończą szkolenie modelu w celu zminimalizowania następujących
∑jaL ( m ( xja, w ) , yja) + P( w )
gdzie jest twoim modelem sparametryzowanym przez wektor , przejmuję wszystkie punkty danych , jest pewnym obliczeniowo przybliżeniem twojej prawdziwej straty, a jest pewną korektą / regulacją uprzedzeń semestr w i { x i , y i } L P ( w )mwja{ xja, yja}L.P.( w )
Na przykład, jeśli twój , , typowym podejściem byłoby pozwolenie , , i wybierz poprzez krzyżową weryfikację y ∈ { - 1 , 1 } m ( x ) = znak ( w ⋅ x ) L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) P ( w ) = q × ( w ⋅ w )x ∈ { - 1 , 1 }rey∈ { - 1 , 1 }m (x)= znak (w⋅x)L ( m ( x ) , y) = - log( y× ( x ⋅ w ) )P.( w ) = q× ( w ⋅ w )q