Pytania otagowane jako batch-normalization

1
Papier: jaka jest różnica między normalizacją warstw, normalizacją okresowej partii (2016) i normalizacją partii RNN (2015)?
Tak więc ostatnio jest papier do normalizacji warstw . Istnieje również jego implementacja w Keras. Ale pamiętam, że są artykuły zatytułowane Recurrent Batch Normalization (Cooijmans, 2016) i Batch Normalized Recurrent Neural Networks (Laurent, 2015). Jaka jest różnica między tymi trzema? Istnieje sekcja Powiązana praca, której nie rozumiem: Normalizacja partii została …

2
Czy normalizacja partii oznacza, że ​​sigmoidy działają lepiej niż ReLU?
Normalizacja partii i ReLU są rozwiązaniami problemu znikającego gradientu. Jeśli używamy normalizacji wsadowej, czy powinniśmy używać sigmoidów? A może istnieją funkcje ReLU, które sprawiają, że są one opłacalne nawet podczas korzystania z batchnorm? Przypuszczam, że normalizacja przeprowadzona w trybie wsadowym wyśle ​​zero aktywacji ujemnych. Czy to oznacza, że ​​batchnorm rozwiązuje …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.