Czy inicjalizacja wag na 0 nie byłaby lepszym pomysłem? W ten sposób wagi byłyby w stanie szybciej znaleźć swoje wartości (dodatnie lub ujemne)?
W jaki sposób złamanie symetrii sprawia, że uczy się szybciej?
Jeśli zainicjujesz wszystkie wagi na zero, to wszystkie neurony wszystkich warstw wykonają te same obliczenia, dając ten sam wynik i czyniąc całą głęboką sieć bezużyteczną . Gdyby wagi były równe zero, złożoność całej głębokiej sieci byłaby taka sama, jak pojedynczego neuronu, a przewidywania nie byłyby niczym lepszym niż przypadkowe.
Węzły, które znajdują się obok siebie w ukrytej warstwie połączonej z tymi samymi danymi wejściowymi, muszą mieć różne wagi, aby algorytm uczący się zaktualizował wagi.
Ustawiając wagi na niezerowe (ale bliskie 0, np. 0,1 itd.), Algorytm nauczy się wag w następnych iteracjach i nie utknie. W ten sposób następuje złamanie symetrii.
- Czy za randomizacją wag stoi jakaś inna filozofia, poza nadzieją, że po zainicjowaniu będą one zbliżone do swoich optymalnych wartości?
Algorytmy optymalizacji stochastycznej, takie jak stochastyczne zstępowanie w gradiencie, wykorzystują losowość przy wyborze punktu początkowego wyszukiwania oraz w przebiegu wyszukiwania.
Postęp wyszukiwania lub uczenia się sieci neuronowej jest znany jako konwergencja. Odkrycie nieoptymalnego rozwiązania lub lokalnych optymalnych parametrów skutkuje przedwczesną konwergencją.
Zamiast polegać na jednej lokalnej optimie, jeśli uruchamiasz swój algorytm wiele razy z różnymi losowymi wagami, istnieje najlepsza możliwość znalezienia globalnej optimy bez utknięcia w lokalnej optimie.
Po 2015 roku, ze względu na postęp w badaniach nad uczeniem maszynowym, He-et-al Initializatio n zostaje wprowadzony, aby zastąpić losową inicjalizację
w=np.random.randn(layer_size[l],layer_size[l-1])*np.sqrt(2/layer_size[l-1])
Wagi są nadal losowe, ale różnią się zakresem w zależności od wielkości poprzedniej warstwy neuronów.
Podsumowując, niezerowe losowe wagi nam pomagają
- Wyjdź z lokalnej optimy
- Przełamanie symetrii
- Osiągnij globalną optymę w kolejnych iteracjach