W literaturze dotyczącej uczenia maszynowego, aby przedstawić rozkład prawdopodobieństwa, często używana jest funkcja softmax. Czy jest tego powód? Dlaczego nie jest używana inna funkcja?
W literaturze dotyczącej uczenia maszynowego, aby przedstawić rozkład prawdopodobieństwa, często używana jest funkcja softmax. Czy jest tego powód? Dlaczego nie jest używana inna funkcja?
Odpowiedzi:
Z punktu widzenia optymalizacji ma kilka dobrych właściwości pod względem zróżnicowania. W przypadku wielu problemów z uczeniem maszynowym dobrze nadaje się do klasyfikacji 1-N-N.
Z perspektywy głębokiego uczenia się: Można również argumentować, że teoretycznie użycie głębokiej sieci z klasyfikatorem softmax na górze może reprezentować dowolną funkcję prawdopodobieństwa klasy N w przestrzeni funkcji, ponieważ MLP mają właściwość Universal Approximation .
Softmax jest również uogólnieniem logistycznej funkcji sigmoidalnej, a zatem niesie właściwości sigmoidu, takie jak łatwość różnicowania i znajdowanie się w przedziale 0-1. Wyjście logistycznej funkcji sigmoidalnej również mieści się w przedziale od 0 do 1, a zatem jest naturalnie odpowiednim wyborem do reprezentowania prawdopodobieństwa. Jego pochodna jest również wyrażona pod względem własnej produkcji. Jeśli jednak twoja funkcja ma wyjście wektorowe, musisz użyć funkcji Softmax, aby uzyskać rozkład prawdopodobieństwa dla wektora wyjściowego. Istnieją inne zalety korzystania z Softmax, o których wspominała Indie AI, chociaż niekoniecznie ma to coś wspólnego z teorią Universal Approximation, ponieważ Softmax nie jest funkcją używaną tylko w sieciach neuronowych.
Bibliografia