O ile rozumiem, norma wsadowa normalizuje wszystkie cechy wejściowe do warstwy do jednostkowego rozkładu normalnego, . Średnia i wariancja są szacowane poprzez pomiar ich wartości dla bieżącej mini-partii.
Po normalizacji dane wejściowe są skalowane i przesuwane o wartości skalarne:
(Popraw mnie, jeśli się tu mylę - tutaj zaczynam być trochę niepewny.)
i są wartościami skalarnymi i dla każdej warstwy z normą wsadową jest ich para. Są one uczone wraz z wagami za pomocą backprop i SGD.
Moje pytanie brzmi: czy parametry te nie są zbędne, ponieważ dane wejściowe można skalować i przesuwać w jakikolwiek sposób o ciężary samej warstwy. Innymi słowy, jeśli
i
następnie
gdzie i .
Jaki jest więc sens dodawania ich do sieci, ponieważ jest już w stanie nauczyć się skali i zmiany? Czy też całkowicie nie rozumiem rzeczy?