Krótka wersja
Długa wersja
Zaletą modelowania matematycznego jest to, że jest elastyczny. Są to rzeczywiście równoważne funkcje strat, ale wynikają z bardzo różnych podstawowych modeli danych.
Formuła 1
Pierwsza notacja pochodzi z modelu prawdopodobieństwa Bernoulliego dla , który jest konwencjonalnie zdefiniowany w { 0 , 1 } . W tym modelu, wynik / etykieta / klasa / prognozowania jest reprezentowany przez zmienną losową Y , który występuje po B e r n o, u l l I ( p ) dystrybucji. Dlatego jego prawdopodobieństwo wynosi:
P ( Y = y | p ) = L ( p ; y ) = p yy{0,1}YBernoulli(p)
P(Y=y | p)=L(p;y)=py (1−p)1−y={1−ppy=0y=1
dla . Użycie 0 i 1 jako wartości wskaźnika pozwala nam zredukować funkcję częściową po prawej stronie do zwięzłego wyrażenia.p∈[0,1]
Jak już zauważyłeś, możesz połączyć z macierzą danych wejściowych x , pozwalając logit p = β T x . Stąd prosta manipulacja algebraiczna ujawnia, że log L ( p ; y ) jest taki sam jak pierwszy L ( y , β T x ) w twoim pytaniu (wskazówka: ( y - 1 ) = - ( 1 - y ) ). Minimalizując utratę logów w ciągu { 0 ,Yxlogitp=βTxlogL(p;y)L(y,βTx)(y−1)=−(1−y) jest równoważne oszacowaniu maksymalnego prawdopodobieństwa modelu Bernoulliego.{0,1}
Sformułowanie to jest również szczególnym przypadkiem uogólnionego modelu liniowego , który jest sformułowany jako dla odwracalnej, różniczkowalnej funkcji g i rozkładu D w rodzinie wykładniczej .Y∼D(θ), g(Y)=βTxgD
Formuła 2
y{−1,1}
max({0,1−yβTx})+λ∥β∥2.
ℓ(y,β)+λ∥β∥2
ℓλβℓL(y,βTx)