7
Po co optymalizować maksymalne prawdopodobieństwo dziennika zamiast prawdopodobieństwa
W większości zadań uczenia maszynowego, w których można sformułować pewne prawdopodobieństwo które należy zmaksymalizować, faktycznie zoptymalizowalibyśmy prawdopodobieństwo zamiast prawdopodobieństwa dla niektórych parametrów . Np. W treningu z maksymalnym prawdopodobieństwem jest to zwykle logarytm prawdopodobieństwa. W przypadku tej metody gradientowej wiąże się to z czynnikiem:ppplogplogp\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂logp∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} …