Dlaczego softmax służy do przedstawienia rozkładu prawdopodobieństwa?

10

W literaturze dotyczącej uczenia maszynowego, aby przedstawić rozkład prawdopodobieństwa, często używana jest funkcja softmax. Czy jest tego powód? Dlaczego nie jest używana inna funkcja?

machine-learning distributions softmax

— SHASHANK GUPTA
źródło

7

Z punktu widzenia optymalizacji ma kilka dobrych właściwości pod względem zróżnicowania. W przypadku wielu problemów z uczeniem maszynowym dobrze nadaje się do klasyfikacji 1-N-N.

Z perspektywy głębokiego uczenia się: Można również argumentować, że teoretycznie użycie głębokiej sieci z klasyfikatorem softmax na górze może reprezentować dowolną funkcję prawdopodobieństwa klasy N w przestrzeni funkcji, ponieważ MLP mają właściwość Universal Approximation .

— Indie AI
źródło

1

Zatem głównym powodem popularności Softmax jest ładne właściwości różnicowania, które są pomocne w ustawieniach uczenia opartego na gradiencie. To jest to, prawda?

— SHASHANK GUPTA

Tak, moim zdaniem i tak. Softmax jest prosty z przyjemnymi pochodnymi i jest atrakcyjny do nauki opartej na gradientach. Zgadzam się ze wszystkim, co powiedziałeś.

— Indie AI

Możesz myśleć softmax jako funkcję prawdopodobieństwa masy / gęstości funkcji, którą zamierzasz zoptymalizować. Moim zdaniem softmax jest tylko wygodnym sposobem modelowania funkcji masy / gęstości prawdopodobieństwa.

— Charles Chow,

3

Softmax jest również uogólnieniem logistycznej funkcji sigmoidalnej, a zatem niesie właściwości sigmoidu, takie jak łatwość różnicowania i znajdowanie się w przedziale 0-1. Wyjście logistycznej funkcji sigmoidalnej również mieści się w przedziale od 0 do 1, a zatem jest naturalnie odpowiednim wyborem do reprezentowania prawdopodobieństwa. Jego pochodna jest również wyrażona pod względem własnej produkcji. Jeśli jednak twoja funkcja ma wyjście wektorowe, musisz użyć funkcji Softmax, aby uzyskać rozkład prawdopodobieństwa dla wektora wyjściowego. Istnieją inne zalety korzystania z Softmax, o których wspominała Indie AI, chociaż niekoniecznie ma to coś wspólnego z teorią Universal Approximation, ponieważ Softmax nie jest funkcją używaną tylko w sieciach neuronowych.

Bibliografia

Funkcja logistyczna

Funkcja Softmax

Łatwość różnicowania na Softmax

Łatwość różnicowania sigmoidu

— Amir
źródło