Pytania otagowane jako batch-normalization

2
Jak i dlaczego normalizacja wsadowa wykorzystuje średnie ruchome do śledzenia dokładności modelu podczas treningu?
Czytałem artykuł z normalizacji wsadowej (BN) (1) i nie rozumiałem potrzeby używania średnich ruchomych do śledzenia dokładności modelu, a nawet jeśli zaakceptowałem, że było to właściwe, nie rozumiem co dokładnie robią. W moim rozumieniu (co się mylę) w dokumencie wspomniano, że wykorzystuje on statystyki populacji, a nie mini-partię, statystyki po …

1
Dlaczego norma partii ma możliwą do nauczenia skalę i przesunięcie?
O ile rozumiem, norma wsadowa normalizuje wszystkie cechy wejściowe do warstwy do jednostkowego rozkładu normalnego, . Średnia i wariancja są szacowane poprzez pomiar ich wartości dla bieżącej mini-partii.N(μ=0,σ=1)N(μ=0,σ=1)\mathcal{N}(\mu=0,\sigma=1)μ,σ2μ,σ2\mu, \sigma^2 Po normalizacji dane wejściowe są skalowane i przesuwane o wartości skalarne: x^′i=γx^i+βx^i′=γx^i+β\hat{x}_i' = \gamma \hat{x}_i + \beta (Popraw mnie, jeśli się …

1
Matrycowa forma propagacji wstecznej z normalizacją partii
Normalizacji partii przypisano znaczną poprawę wydajności w głębokich sieciach neuronowych. Wiele materiałów w Internecie pokazuje, jak wdrożyć je na zasadzie aktywacja po aktywacji. Zaimplementowałem już backprop za pomocą algebry macierzy i biorąc pod uwagę, że pracuję w językach wysokiego poziomu (polegając na Rcpp(i ewentualnie GPU) na gęstym mnożeniu macierzy), zgrywanie …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.