Funkcja softmax, powszechnie stosowana w sieciach neuronowych do przekształcania liczb rzeczywistych na prawdopodobieństwa, jest taką samą funkcją jak rozkład Boltzmanna, rozkład prawdopodobieństwa nad energiami dla zespołu cząstek w równowadze termicznej w danej temperaturze T w termodynamice.
Widzę pewne wyraźne heurystyczne powody, dla których jest to praktyczne:
- Bez względu na to, czy wartości wejściowe są ujemne, softmax wyprowadza wartości dodatnie, które sumują się do jednego.
- Zawsze można ją rozróżnić, co jest przydatne w przypadku propagacji reklamowej.
- Ma parametr „temperatury” kontrolujący, jak łagodna powinna być sieć w kierunku małych wartości (gdy T jest bardzo duże, wszystkie wyniki są równie prawdopodobne, gdy bardzo małe, wybierana jest tylko wartość z największym wejściem).
Czy funkcja Boltzmanna jest używana tylko jako softmax ze względów praktycznych, czy też istnieje głębsze powiązanie z termodynamiką / fizyką statystyczną?