Wiem, że ten wątek jest dość stary, a inni wykonali świetną robotę, tłumacząc pojęcia takie jak lokalne minima, nadmierne dopasowanie itp. Jednak, ponieważ OP szukało alternatywnego rozwiązania, postaram się je wnieść i mam nadzieję, że zainspiruje to bardziej interesujące pomysły.
Chodzi o zastąpienie każdej wagi w do w + t, gdzie t jest liczbą losową po rozkładzie Gaussa. Końcowa moc wyjściowa sieci jest wówczas średnią mocą wyjściową dla wszystkich możliwych wartości t. Można to zrobić analitycznie. Następnie możesz zoptymalizować problem za pomocą spadku gradientu lub LMA lub innych metod optymalizacji. Po zakończeniu optymalizacji masz dwie opcje. Jedną z opcji jest zmniejszenie sigmy w rozkładzie Gaussa i wykonywanie optymalizacji raz za razem, aż sigma osiągnie wartość 0, wtedy będziesz mieć lepsze lokalne minimum (ale potencjalnie może to spowodować przeregulowanie). Inną opcją jest używanie tej z losową liczbą w wagach, zwykle ma lepszą właściwość uogólnienia.
Pierwsze podejście to sztuczka optymalizacyjna (nazywam to tunelowaniem splotowym, ponieważ używa splotu parametrów do zmiany funkcji docelowej), wygładza powierzchnię krajobrazu funkcji kosztu i pozbywa się niektórych lokalnych minimów, a tym samym ułatwi znalezienie globalnego minimum (lub lepszego lokalnego minimum).
Drugie podejście wiąże się z iniekcją hałasu (odważników). Zauważ, że odbywa się to analitycznie, co oznacza, że końcowy wynik to jedna sieć zamiast wielu sieci.
Poniżej przedstawiono przykładowe dane wyjściowe dla problemu dwóch spiral. Architektura sieci jest taka sama dla wszystkich trzech: istnieje tylko jedna ukryta warstwa 30 węzłów, a warstwa wyjściowa jest liniowa. Zastosowanym algorytmem optymalizacji jest LMA. Lewy obraz służy do ustawienia wanilii; środek stosuje pierwsze podejście (mianowicie wielokrotnie redukuje sigma do 0); trzeci używa sigma = 2.
Widać, że najgorsze jest rozwiązanie waniliowe, tunelowanie splotowe działa lepiej, a wstrzykiwanie hałasu (z tunelowaniem splotowym) jest najlepsze (pod względem właściwości uogólniającej).
Zarówno tunelowanie splotowe, jak i analityczny sposób wprowadzania hałasu to moje oryginalne pomysły. Może są alternatywą, którą ktoś może być zainteresowany. Szczegóły można znaleźć w moim artykule Łączenie nieskończonej liczby sieci neuronowych w jedną całość . Ostrzeżenie: nie jestem zawodowym pisarzem akademickim i artykuł nie jest recenzowany. Jeśli masz pytania dotyczące podejść, o których wspomniałem, zostaw komentarz.