Czytałem artykuł z normalizacji wsadowej (BN) (1) i nie rozumiałem potrzeby używania średnich ruchomych do śledzenia dokładności modelu, a nawet jeśli zaakceptowałem, że było to właściwe, nie rozumiem co dokładnie robią.
W moim rozumieniu (co się mylę) w dokumencie wspomniano, że wykorzystuje on statystyki populacji, a nie mini-partię, statystyki po zakończeniu szkolenia przez model. Po krótkiej dyskusji na temat obiektywnych szacunków (co wydaje mi się styczne i nie rozumiem, dlaczego o tym mówi), idą i mówią:
Używając zamiast tego średnich kroczących, śledzimy dokładność modelu podczas jego trenowania.
Ta część jest dla mnie myląca. Dlaczego robią średnie kroczące, aby oszacować dokładność modelu i zestaw danych?
Zwykle to, co ludzie robią, aby oszacować uogólnienie swojego modelu, po prostu śledzą błąd walidacji swojego modelu (i potencjalnie wcześnie zatrzymują opadanie gradientu w celu uregulowania). Wydaje się jednak, że normalizacja wsadowa robi coś zupełnie innego. Czy ktoś może wyjaśnić, co i dlaczego robi coś innego?
1 : Ioffe S. i Szegedy C. (2015),
„Normalizacja partii: przyspieszenie głębokiego szkolenia w sieci poprzez zmniejszenie wewnętrznej zmiany współzmiennej”,
materiały z 32. międzynarodowej konferencji na temat uczenia maszynowego , Lille, Francja, 2015.
Journal of Machine Learning Research: W&CP tom 37