Tak więc ostatnio jest papier do normalizacji warstw . Istnieje również jego implementacja w Keras.
Ale pamiętam, że są artykuły zatytułowane Recurrent Batch Normalization (Cooijmans, 2016) i Batch Normalized Recurrent Neural Networks (Laurent, 2015). Jaka jest różnica między tymi trzema?
Istnieje sekcja Powiązana praca, której nie rozumiem:
Normalizacja partii została wcześniej rozszerzona na rekurencyjne sieci neuronowe [Laurent i in., 2015, Amodei i in., 2015, Cooijmans i in., 2016]. Poprzednie prace [Cooijmans i in., 2016] sugerują, że najlepszą wydajność powtarzalnej normalizacji partii uzyskuje się poprzez utrzymywanie niezależnych statystyk normalizacyjnych dla każdego kroku czasowego. Autorzy pokazują, że zainicjowanie parametru wzmocnienia w warstwie cyklicznej normalizacji wsadowej do wartości 0,1 ma znaczącą różnicę w końcowej wydajności modelu. Nasza praca związana jest również z normalizacją masy ciała [Salimans i Kingma, 2016]. W normalizacji ciężaru zamiast wariancji stosuje się normę L2 przychodzących ciężarów w celu normalizacji sumowanych danych wejściowych do neuronu. Zastosowanie albo normalizacji masy, albo normalizacji partii przy użyciu oczekiwanych statystyk jest równoważne z inną parametryzacją oryginalnej sieci neuronowej ze sprzężeniem zwrotnym. Ponowną parametryzację w sieci ReLU badano w Pathnormalized SGD [Neyshabur i in., 2015]. Nasza zaproponowana metoda normalizacji warstw nie polega jednak na ponownej parametryzacji oryginalnej sieci neuronowej. Model znormalizowany warstwowo ma zatem inne właściwości niezmienniczości niż inne metody , które zbadamy w następnym rozdziale