Proponowana funkcja ma osobliwość, ilekroć suma elementów wynosi zero.
Załóżmy, że twój wektor to [ - 1 , 13), 23)] . Ten wektor ma sumę 0, więc podział nie jest zdefiniowany. Funkcja nie jest tutaj rozróżnialna.
Dodatkowo, jeśli jeden lub więcej elementów wektora jest ujemnych, ale suma jest niezerowa, wynik nie jest prawdopodobieństwem.
Załóżmy, że twój wektor to [ - 1 , 0 , 2 ] . Ma to sumę 1, więc zastosowanie tej funkcji powoduje [ - 1 , 0 , 2 ] , co nie jest wektorem prawdopodobieństwa, ponieważ zawiera elementy ujemne i elementy przekraczające 1.
Patrząc szerzej, możemy motywować określoną formę funkcji softmax z perspektywy rozszerzenia binarnej regresji logistycznej na przypadek trzech lub więcej kategorycznych wyników.
Robienie rzeczy takich jak przyjmowanie wartości bezwzględnych lub kwadratów, jak sugerowano w komentarzach, oznacza, że i mają takie samo przewidywane prawdopodobieństwo; oznacza to, że model nie został zidentyfikowany . Natomiast jest monotoniczny i dodatni dla wszystkich rzeczywistych , więc wynikiem softmax jest (1) wektor prawdopodobieństwa i (2) zidentyfikowany jest wielomianowy model logistyczny.- xxexp ( x ) xexp( x )x