Załóżmy ogólnie, że zdecydowałeś się wziąć model formularza
P.( y= 1 | X= x ) = h ( x ; Θ )
dla niektórych parametrów . Następnie po prostu zanotuj prawdopodobieństwo, tjΘ
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , yja= 1P.( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , yja= 0P.( y= 0 | x = x ; Θ )
który jest taki sam jak
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , yja= 1P.( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , yja= 0( 1 - P( y= 1 | x = x ; Θ ) )
Teraz zdecydowałeś się „założyć” (model)
P.( y= 1 | X= x ) = σ( Θ0+ Θ1x )
gdzie
σ( z) = 1 / ( 1 + e- z)
więc wystarczy obliczyć formułę prawdopodobieństwa i wykonać algorytm optymalizacji w celu znalezienia , na przykład metody newtonów lub dowolnej innej metody opartej na gradiencie.argmaxΘL ( Θ )
Zauważ, że czasami ludzie mówią, że podczas regresji logistycznej nie zwiększają prawdopodobieństwa (jak to zrobiliśmy powyżej), ale raczej minimalizują funkcję straty
l ( Θ ) = - ∑i = 1N.yjalog( P( Yja= 1 | X= x ; Θ ) ) + ( 1 - yja) log( P( Yja= 0 | X= x ; Θ ) )
ale zauważ, że .- log( L ( Θ ) ) = l ( Θ )
Jest to ogólny wzorzec w uczeniu maszynowym: strona praktyczna (minimalizująca funkcje strat, które mierzą, jak „zły” jest model heurystyczny) jest w rzeczywistości równa „stronie teoretycznej” (modelowanie jawnie za pomocą symbolu , maksymalizując wielkości statystyczne, takie jak prawdopodobieństwa), a w rzeczywistości wiele modeli, które nie wyglądają jak probabilistyczne (na przykład SVM), można ponownie zrozumieć w kontekście probabilistycznym i są one w rzeczywistości maksymalizacjami prawdopodobieństw.P.