Dlaczego początkowe wagi w sieci neuronowej są losowe?

Może to zabrzmieć głupio dla kogoś, kto ma duże doświadczenie z sieciami neuronowymi, ale przeszkadza mi to ...

Chodzi mi o to, że losowe wagi początkowe mogą dać lepsze wyniki, które byłyby nieco bliżej tego, jak powinna wyglądać wyszkolona sieć, ale równie dobrze może być dokładnym przeciwieństwem tego, co powinno być, podczas gdy 0,5 lub inna średnia dla zakresu rozsądnej wagi wartość brzmiałaby jak dobre ustawienie domyślne ...

Dlaczego początkowe wagi neuronów są losowe, a nie 0,5 dla wszystkich?

neural-networks training

— Matas Vaitkevicius
źródło

W czym był problem z moją edycją? Myślisz, że nie można cię poprawić?

— nbro

@nbro dodaje wiele pytań, co czyni go zbyt szerokim ...

— Matas Vaitkevicius

Jakie pytania, które dodałem, których nie ma w twoim poście? Właśnie przeformułowałem jako pytania, co powiedziałeś jako hipotezy.

— nbro

Nawiasem mówiąc, twoje sformułowania są nawet niepoprawne. Wagi nie są losowe, ale są losowo inicjowane. Są to dwie różne koncepcje, a miałeś na myśli drugą. Moja edycja miała również poprawić brzmienie.

— nbro

@nbro Cześć, patrzcie, nie byłem nie doceniony, a na pewno nie chciałem cię urazić. Mam też problemy z zadawaniem pytań, sformułowaniami i wszystkim innym. Więc przepraszam, że cię obraziłem.

— Matas Vaitkevicius

Odpowiedzi:

Wagi początkowe w sieci neuronowej są inicjowane losowo, ponieważ metody oparte na gradiencie, powszechnie stosowane do trenowania sieci neuronowych, nie działają dobrze, gdy wszystkie wagi są inicjowane do tej samej wartości. Chociaż nie wszystkie metody trenowania sieci neuronowych są oparte na gradiencie, większość z nich jest, i w kilku przypadkach wykazano, że inicjalizacja sieci neuronowej do tej samej wartości powoduje, że połączenie sieci z optymalnym rozwiązaniem zajmuje znacznie więcej czasu. Ponadto, jeśli chcesz ponownie przeszkolić swoją sieć neuronową, ponieważ utknęła w lokalnych minimach, utknie w tych samych lokalnych minimach. Z powyższych powodów nie ustawiamy początkowych wag na stałą wartość.

Odnośniki: Dlaczego propagacja wsteczna nie działa, gdy inicjujesz wagi o tej samej wartości?

— Aiden Grossman
źródło

W rzeczywistości rozkładają się, jeśli wszystkie wagi są takie same.

— Quonux

Nie powinieneś przypisywać wszystkich do 0,5, ponieważ miałbyś problem z łamaniem symetrii.

http://www.deeplearningbook.org/contents/optimization.html

Być może jedyną znaną z całą pewnością właściwością jest to, że początkowe parametry muszą „ zerwać symetrię ” między różnymi jednostkami. Jeśli dwie ukryte jednostki z tą samą funkcją aktywacyjną są podłączone do tych samych wejść, wówczas jednostki te muszą mieć różne parametry początkowe. Jeśli mają te same parametry początkowe, to algorytm uczenia deterministycznego zastosowany do deterministycznego kosztu i modelu będzie stale aktualizować obie te jednostki w ten sam sposób. Nawet jeśli model lub algorytm szkoleniowy może wykorzystywać stochastyczność do obliczania różnych aktualizacji dla różnych jednostek (na przykład, jeśli jeden trenuje z rezygnacją), zwykle najlepiej jest zainicjować każdą jednostkę, aby obliczyć inną funkcję od wszystkich innych jednostek. Może to pomóc upewnić się, że żadne wzorce wejściowe nie zostaną utracone w zerowej przestrzeni propagacji do przodu i żadne wzorce gradientu nie zostaną utracone w zerowej przestrzeni propagacji wstecznej.

— Witaj świecie
źródło

To bardzo głębokie pytanie. Niedawno pojawiła się seria artykułów z dowodem zbieżności spadku gradientu w przypadku sparametryzowanej głębokiej sieci (na przykład Gradient Descent Finds Global Minima of Deep Neural Networks , A Convergence Theory for Deep Learning over Overparameterization lub Stochastic Gradient Descent Optimizes Overparameterized Deep ReLU Networks ). Wszystkie warunkują dowód na losowy rozkład wag Gaussa. Jego znaczenie dla dowodów zależy od dwóch czynników:

Losowe wagi sprawiają, że mapowanie ReLU jest ściskane statystycznie (do transformacji liniowej)
Wagi losowe zachowują separację danych wejściowych dla dowolnej dystrybucji danych wejściowych - to znaczy, jeśli próbki wejściowe są rozróżnialne, propagacja sieci nie spowoduje, że będą nierozróżnialne

Te właściwości bardzo trudne do odtworzenia za pomocą macierzy deterministycznych, a nawet jeśli są odtwarzalne za pomocą macierzy deterministycznych Przestrzeń NULL (dziedzina przykładów przeciwnych) prawdopodobnie spowodowałaby niepraktyczność metody, a ważniejsze zachowanie tych właściwości podczas opadania gradientu prawdopodobnie uczyniłoby tę metodę niepraktyczną. Ale ogólnie rzecz biorąc jest to bardzo trudne, ale nie niemożliwe, i może uzasadniać pewne badania w tym kierunku. W analogicznej sytuacji wystąpiły pewne wyniki dla właściwości ograniczonej izometrii dla matryc deterministycznych w detekcji skompresowanej .

— mirror2image
źródło