To pytanie jest bardzo interesujące. Nie znam dokładnego powodu, ale myślę, że można by wyjaśnić użycie funkcji wykładniczej za pomocą następującego powodu. Ten post jest inspirowany mechaniką statystyczną i zasadą maksymalnej entropii.
Będzie to wyjaśnić za pomocą przykładu z N obrazów, które są utworzone z n1 obrazów z grupy C1 , n2 obrazów z klasy C2 , ..., a nK obrazy z klasy CK . Następnie zakładamy, że nasza sieć neuronowa była w stanie zastosować nieliniowa przekształcić na zdjęcia, dzięki czemu możemy przypisać poziom energii „” Ek do wszystkich klas. Zakładamy, że energia ta ma skalę nieliniową, co pozwala nam na liniowe rozdzielenie obrazów.
Średnia energia E¯ jest powiązana z innymi energiami Ek przez następujący związek
NE¯=∑k=1KnkEk.(∗)
Jednocześnie widzimy, że całkowitą liczbę obrazów można obliczyć jako następującą sumę
N=∑k=1Knk.(∗∗)
Główną ideą zasady maksymalnej entropii jest to, że liczba obrazów w odpowiednich klasach jest rozdzielona w taki sposób, że liczba możliwych kombinacji dla danej dystrybucji energii jest zmaksymalizowana. Mówiąc prościej, system prawdopodobnie nie przejdzie do stanu, w którym mamy tylko klasę n1 nie przejdzie też do stanu, w którym mamy taką samą liczbę obrazów w każdej klasie. Ale dlaczego tak jest? Gdyby wszystkie obrazy były w jednej klasie, system miałby bardzo niską entropię. Drugi przypadek byłby również bardzo nienaturalną sytuacją. Bardziej prawdopodobne jest, że będziemy mieli więcej zdjęć o umiarkowanej energii i mniej zdjęć o bardzo wysokiej i bardzo niskiej energii.
Entropia wzrasta wraz z liczbą kombinacji, w których możemy podzielić N obrazów na klasy obrazów n1 , n2 , ..., nK o odpowiedniej energii. Tę liczbę kombinacji podaje współczynnik wielomianowy
(N!n1!,n2!,…,nK!)=N!∏Kk=1nk!.
Spróbujemy zmaksymalizować tę liczbę, zakładając, że mamy nieskończenie wiele obrazów N→∞ . Ale jego maksymalizacja ma również ograniczenia równości (∗) i (∗∗) . Ten typ optymalizacji nazywany jest optymalizacją ograniczoną. Możemy rozwiązać ten problem analitycznie, stosując metodę mnożników Lagrange'a. Wprowadzamy mnożniki Lagrange'a β i α dla ograniczeń równości i wprowadzamy Lagrange Funktion L(n1,n2,…,nk;α,β) .
L(n1,n2,…,nk;α,β)=N!∏Kk=1nk!+β[∑k=1KnkEk−NE¯]+α[N−∑k=1Knk]
N→∞nk→∞
lnn!=nlnn−n+O(lnn).
lnn!n→∞
nk~
∂L∂nk~=−lnnk~−1−α+βEk~.
Jeśli ustawimy tę pochodną cząstkową na zero, możemy ją znaleźć
nk~=exp(βEk~)exp(1+α).(∗∗∗)
(∗∗)
exp(1+α)=1N∑k=1Kexp(βEk).
(∗∗∗)
nk~=exp(βEk~)1N∑Kk=1exp(βEk).
Jeśli zdefiniujemy nk~/ N jako prawdopodobieństwo klasy dok~ przez pk~ otrzymamy coś, co jest naprawdę podobne do funkcji softmax
pk~= exp( βmik~)∑K.k = 1exp( βmik).
To pokazuje nam, że funkcja softmax jest funkcją maksymalizującą entropię w rozkładzie obrazów. Od tego momentu sensowne jest wykorzystywanie tego jako dystrybucji obrazów. Jeśli ustawimyβmik~= wT.kx dokładnie otrzymujemy definicję funkcji softmax dla kth wydajność.