Czy możemy użyć MLE do oszacowania wag sieci neuronowej?

23

Właśnie zacząłem uczyć się o statystykach i modelach. Obecnie rozumiem, że używamy MLE do oszacowania najlepszych parametrów dla modelu. Kiedy jednak próbuję zrozumieć, jak działają sieci neuronowe, wydaje się, że zwykle używają innego podejścia do oszacowania parametrów. Dlaczego nie używamy MLE lub czy w ogóle można korzystać z MLE?

maximum-likelihood neural-networks

— słup
źródło

16

Szacunki MLE dotyczące mas sztucznych sieci neuronowych (ANN) są z pewnością możliwe ; w rzeczywistości jest to całkowicie typowe. W przypadku problemów z klasyfikacją standardową funkcją celu jest entropia krzyżowa, która jest taka sama jak ujemne prawdopodobieństwo logarytmiczne modelu dwumianowego. W przypadku problemów z regresją stosuje się błąd resztkowego kwadratu, który jest równoległy z regresją MLE OLS.

Istnieją jednak pewne problemy z założeniem, że dobre właściwości MLE uzyskane w klasycznej statystyce dotyczą również MLE sieci neuronowych.

Istnieje ogólny problem z oszacowaniem ANN: istnieje wiele symetrycznych rozwiązań nawet dla jednowarstwowych ANN. Odwrócenie znaków wagi dla warstwy ukrytej i odwrócenie znaków parametrów aktywacji warstwy ukrytej ma jednakowe prawdopodobieństwo. Ponadto możesz permutować dowolny z ukrytych węzłów, a te permutacje również mają takie samo prawdopodobieństwo. Jest to konsekwencją, o ile musisz potwierdzić, że rezygnujesz z identyfikacji. Jeśli jednak identyfikowalność nie jest ważna, możesz po prostu zaakceptować, że te alternatywne rozwiązania są tylko wzajemnymi refleksjami i / lub permutacjami.

Jest to sprzeczne z klasycznymi zastosowaniami MLE w statystykach, takimi jak regresja OLS: problem OLS jest wypukły i ściśle wypukły, gdy macierz projektowa ma pełną rangę. Silna wypukłość oznacza, że istnieje jeden, unikalny minimalizator.
ANN będą miały tendencję do przewyższania danych w przypadku korzystania z nieograniczonego rozwiązania. Wagi będą miały tendencję do ścigania się od źródła do nieprawdopodobnie dużych wartości, które nie uogólniają dobrze lub przewidują nowe dane z dużą dokładnością. Nałożenie zaniku masy lub innych metod regularyzacji powoduje zmniejszenie wartości szacunkowej masy do zera. To niekoniecznie rozwiązuje problem nieokreśloności z (1), ale może poprawić uogólnienie sieci.
Funkcja utraty nie jest wypukła, a optymalizacja może znaleźć lokalnie optymalne rozwiązania, które nie są optymalne globalnie . A może te rozwiązania są punktami siodłowymi, w których utknęły niektóre metody optymalizacji. Wyniki tego artykułu wskazują, że nowoczesne metody szacowania omijają ten problem.
$L^1$ $L^2$

— Sycorax mówi Przywróć Monikę
źródło

2

Zaczynam się różnić od tego, co mówisz. Różne lokalne minima wynikające z symetrii są tej samej jakości, więc nie musisz się o to martwić. Prawdopodobnie chcesz powiedzieć, że ANN nie mają funkcji wypukłych strat, co powoduje, że optymalizacja jest bardziej zaangażowana i nie gwarantuje znalezienia globalnego optimum. Jednak ostatnio pojawiło się sporo dowodów na to, że SSN w rzeczywistości nie mają zbyt wielu lokalnych problemów z minimami, ale raczej problemów z punktami siodłowymi. Patrz np . Arxiv.org/abs/1412.6544 .

— bayerj

11

W problemach z klasyfikacją maksymalizacja prawdopodobieństwa jest najczęstszym sposobem trenowania sieci neuronowej (zarówno modele nadzorowane, jak i nienadzorowane).

W praktyce zwykle minimalizujemy ujemne prawdopodobieństwo logarytmu (równoważne MLE). Jedynym ograniczeniem do wykorzystania ujemnego prawdopodobieństwa logarytmicznego jest posiadanie warstwy wyjściowej, którą można interpretować jako rozkład prawdopodobieństwa. Powszechnie stosuje się do tego warstwę wyjściową softmax. Zauważ, że w społeczności sieci neuronowych prawdopodobieństwo logarytmu ujemnego jest czasami określane jako entropia krzyżowa. Terminy regularyzacji można oczywiście dodać (i czasami można je interpretować jako wcześniejsze rozkłady parametrów, w takim przypadku szukamy maksimum a posteriori ( MAP )).

— AdeB
źródło