Zasadniczo sieci neuronowe nie są wykorzystywane do modelowania całkowitej gęstości prawdopodobieństwa. Ich celem jest po prostu modelowanie średniej rozkładu (lub w sytuacji deterministycznej po prostu funkcja nieliniowa). Niemniej jednak bardzo możliwe jest modelowanie całkowitej gęstości prawdopodobieństwa za pomocą sieci neuronowych.
Jednym łatwym sposobem na to jest na przykład w przypadku Gaussa emisja średniej z jednego wyjścia i wariancji z innego wyjścia sieci, a następnie zminimalizowanie jako części proces szkolenia zamiast typowego błędu kwadratu. Jest to procedura największego prawdopodobieństwa dla sieci neuronowej.−logN(y|x;μ,σ)
Gdy trenujesz tę sieć za każdym razem, gdy podłączysz wartość jako dane wejściowe, otrzymasz μ i σ , a następnie możesz podłączyć całą tryplet y , μ , σ do gęstości f ( y | x ) ∼ N ( μ , σ ), aby uzyskać wartość gęstości dla dowolnego y lubisz. Na tym etapie możesz wybrać, który y wartość zostanie zastosowana w oparciu o funkcję strat prawdziwy domeny. Należy pamiętać, że dla μ aktywacja wyjścia powinna być nieograniczona, aby można było emitować -xμσy,μ,σf(y|x)∼N(μ,σ)yyμ do + inf, podczas gdy σ powinno być aktywacją dodatnią.−inf+infσ
Zasadniczo, chyba że chodzi o funkcję deterministyczną, o którą nam chodzi, standardowy trening straty kwadratowej stosowany w sieciach neuronowych jest właściwie tą samą procedurą, którą opisałem powyżej. Pod kaptur rozkład zakłada domyślnie bez trosce o Ď a jeżeli dokładnie zbadać - l O g N ( Y | x ; μ , σ ) daje ekspresję na kwadrat strat ( Utrata funkcja estymatora największej wiarygodności Gaussa ). W tym scenariuszu zamiast yGaussianσ−logN(y|x;μ,σ)ywartość według twoich upodobań utkniesz w emitowaniu za każdym razem, gdy otrzymasz nową wartość x .μx
Klasyfikacji wyjście będzie rozkład zamiast G U s s I n , który posiada jeden parametr do emisji. Jak podano w drugiej odpowiedzi, parametr ten wynosi od 0 do 1, więc aktywacja wyjścia powinna być odpowiednio. Może to być funkcja logistyczna lub coś innego, co służy temu samemu celowi.BernoulliGaussian01
Bardziej wyrafinowanym podejściem jest Bishop's Mixture Density Networks. Możesz przeczytać o tym w często cytowanym dokumencie tutaj:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf