OP błędnie uważa, że związek między tymi dwiema funkcjami wynika z liczby próbek (tj. Pojedynczych vs. wszystkich). Jednak faktyczna różnica polega na tym, jak wybieramy nasze etykiety szkoleniowe.
W przypadku klasyfikacji binarnej możemy przypisać etykiety lub .y=±1y=0,1
Jak już stwierdzono, funkcja logistyczna jest dobrym wyborem, ponieważ ma postać prawdopodobieństwa, tj. i jako . Jeśli wybierzemy etykiety możemy przypisać σ(z)σ(−z)=1−σ(z)σ(z)∈(0,1)z→±∞y=0,1
P(y=1|z)P(y=0|z)=σ(z)=11+e−z=1−σ(z)=11+ez
które można zapisać bardziej zwięźle jako .P(y|z)=σ(z)y(1−σ(z))1−y
Łatwiej jest zmaksymalizować prawdopodobieństwo dziennika. Maksymalizacja prawdopodobieństwa dziennika jest taka sama jak minimalizacja ujemnego prawdopodobieństwa dziennika. Dla próbek , po przyjęciu logarytmu naturalnego i pewnych uproszczeń, dowiemy się:m{xi,yi}
l(z)=−log(∏imP(yi|zi))=−∑imlog(P(yi|zi))=∑im−yizi+log(1+ezi)
Pełne wyprowadzenie i dodatkowe informacje można znaleźć w tym notesie jupyter . Z drugiej strony moglibyśmy zamiast tego użyć etykiet . To całkiem oczywiste, że możemy to przypisaćy=±1
P(y|z)=σ(yz).
Oczywiste jest również, że . Postępując tak samo jak poprzednio, minimalizujemy w tym przypadku funkcję stratP(y=0|z)=P(y=−1|z)=σ(−z)
L(z)=−log(∏jmP(yj|zj))=−∑jmlog(P(yj|zj))=∑jmlog(1+e−yzj)
Tam, gdzie następuje ostatni krok po tym, jak weźmiemy odwrotność indukowaną znakiem ujemnym. Chociaż nie powinniśmy porównywać tych dwóch form, biorąc pod uwagę, że w każdej formie przyjmuje różne wartości, niemniej te dwie są równoważne:y
−yizi+log(1+ezi)≡log(1+e−yzj)
Przypadek jest trywialny do pokazania. Jeśli , to po lewej stronie i po prawej stronie.yi=1yi≠1yi=0yi=−1
Chociaż mogą istnieć podstawowe powody, dla których mamy dwie różne formy (patrz: Dlaczego istnieją dwie różne formuły / zapisy strat logistycznych? ), Jednym z powodów wyboru tego pierwszego są względy praktyczne. W pierwszym przypadku możemy użyć właściwości aby w prosty sposób obliczyć i , z których oba są potrzebne do analizy zbieżności (tj. do określenia wypukłości funkcji straty przez obliczenie Hesji ).∂σ(z)/∂z=σ(z)(1−σ(z))∇l(z)∇2l(z)