Statystyki i duże zbiory danych batch-normalization

2

Jak i dlaczego normalizacja wsadowa wykorzystuje średnie ruchome do śledzenia dokładności modelu podczas treningu?

Czytałem artykuł z normalizacji wsadowej (BN) (1) i nie rozumiałem potrzeby używania średnich ruchomych do śledzenia dokładności modelu, a nawet jeśli zaakceptowałem, że było to właściwe, nie rozumiem co dokładnie robią. W moim rozumieniu (co się mylę) w dokumencie wspomniano, że wykorzystuje on statystyki populacji, a nie mini-partię, statystyki po …

21 machine-learning neural-networks deep-learning conv-neural-network batch-normalization

1

Dlaczego norma partii ma możliwą do nauczenia skalę i przesunięcie?

O ile rozumiem, norma wsadowa normalizuje wszystkie cechy wejściowe do warstwy do jednostkowego rozkładu normalnego, . Średnia i wariancja są szacowane poprzez pomiar ich wartości dla bieżącej mini-partii.N(μ=0,σ=1)N(μ=0,σ=1)\mathcal{N}(\mu=0,\sigma=1)μ,σ2μ,σ2\mu, \sigma^2 Po normalizacji dane wejściowe są skalowane i przesuwane o wartości skalarne: x^′i=γx^i+βx^i′=γx^i+β\hat{x}_i' = \gamma \hat{x}_i + \beta (Popraw mnie, jeśli się …

13 batch-normalization

1

Matrycowa forma propagacji wstecznej z normalizacją partii

Normalizacji partii przypisano znaczną poprawę wydajności w głębokich sieciach neuronowych. Wiele materiałów w Internecie pokazuje, jak wdrożyć je na zasadzie aktywacja po aktywacji. Zaimplementowałem już backprop za pomocą algebry macierzy i biorąc pod uwagę, że pracuję w językach wysokiego poziomu (polegając na Rcpp(i ewentualnie GPU) na gęstym mnożeniu macierzy), zgrywanie …

12 machine-learning neural-networks deep-learning backpropagation batch-normalization

Pytania otagowane jako batch-normalization