Dlaczego norma partii ma możliwą do nauczenia skalę i przesunięcie?

O ile rozumiem, norma wsadowa normalizuje wszystkie cechy wejściowe do warstwy do jednostkowego rozkładu normalnego, . Średnia i wariancja są szacowane poprzez pomiar ich wartości dla bieżącej mini-partii. $\mathcal{N}(\mu=0,\sigma=1)$ $\mu, \sigma^2$

Po normalizacji dane wejściowe są skalowane i przesuwane o wartości skalarne:

{\hat{x}}_{i}^{'} = γ {\hat{x}}_{i} + β

$\hat{x}_i' = \gamma \hat{x}_i + \beta$

(Popraw mnie, jeśli się tu mylę - tutaj zaczynam być trochę niepewny.)

$\gamma$ i $\beta$ są wartościami skalarnymi i dla każdej warstwy z normą wsadową jest ich para. Są one uczone wraz z wagami za pomocą backprop i SGD.

Moje pytanie brzmi: czy parametry te nie są zbędne, ponieważ dane wejściowe można skalować i przesuwać w jakikolwiek sposób o ciężary samej warstwy. Innymi słowy, jeśli

y = W {\hat{x}}^{'} + b

$y = W \hat{x}' + b$

{\hat{x}}^{'} = γ \hat{x} + β

$\hat{x}' = \gamma \hat{x} + \beta$

następnie

y = W^{'} \hat{x} + b^{'}

$y = W' \hat{x} + b'$

gdzie $W' = W\gamma$ i $b'=W\beta + b$ .

Jaki jest więc sens dodawania ich do sieci, ponieważ jest już w stanie nauczyć się skali i zmiany? Czy też całkowicie nie rozumiem rzeczy?

batch-normalization

— Timmmm
źródło

Doskonała odpowiedź znajduje się w książce Deep Learning Book, rozdział 8.7.1 :

Normalizacja średniej i odchylenia standardowego jednostki może zmniejszyć moc ekspresyjną sieci neuronowej zawierającej tę jednostkę. Aby utrzymać moc ekspresyjną sieci, często zastępuje się partię ukrytych aktywacji jednostek H γH + β, a nie po prostu znormalizowaną H. Zmienne γ i β są parametrami wyuczonymi, które pozwalają nowej zmiennej mieć dowolną średnią i odchylenie standardowe. Na pierwszy rzut oka może się to wydawać bezużyteczne - dlaczego ustawiliśmy średnią na 0, a następnie wprowadziliśmy parametr, który pozwala przywrócić jej dowolną wartość β?

Odpowiedź jest taka, że nowa parametryzacja może reprezentować tę samą rodzinę funkcji danych wejściowych co stara parametryzacja, ale nowa parametryzacja ma inną dynamikę uczenia się. W starej parametryzacji średnia H została określona przez skomplikowaną interakcję między parametrami w warstwach poniżej H. W nowej parametryzacji średnia γH + β jest określona wyłącznie przez β. Nowa parametryzacja jest znacznie łatwiejsza do nauczenia przy spadku opadającym.

— Timmmm
źródło