Uważam, że odpowiedź zależy od scenariusza.
Rozważmy NN (sieć neuronowa) jako operator F, więc F (wejście) = wyjście . W przypadku, gdy ta relacja jest liniowa, tak że F (A * wejście) = A * wyjście , możesz albo pozostawić wejście / wyjście nienormalizowane w ich surowych formach, albo znormalizować oba, aby wyeliminować A. Oczywiście to założenie liniowości jest naruszone w zadaniach klasyfikacyjnych lub prawie każde zadanie, które generuje prawdopodobieństwo, gdzie F (A * wejście) = 1 * wyjście
W praktyce normalizacja pozwala na dopasowanie niedopasowalnych sieci, co jest kluczowe dla eksperymentatorów / programistów. Niemniej jednak dokładny wpływ normalizacji będzie zależał nie tylko od architektury / algorytmu sieci, ale także od statystycznego wyprzedzenia wejścia i wyjścia.
Co więcej, NN jest często wdrażane w celu rozwiązywania bardzo trudnych problemów w sposób czarnoskrzynkowy, co oznacza, że podstawowy problem może mieć bardzo słabe sformułowanie statystyczne, co utrudnia ocenę wpływu normalizacji, co daje przewagę techniczną (możliwość dopasowania) dominować nad jego wpływem na statystyki.
W sensie statystycznym normalizacja usuwa zmienność, która jest uważana za bezprzyczynową w przewidywaniu wyniku, aby uniemożliwić NN poznanie tej zmienności jako predyktora ( NN nie widzi tej zmiany, dlatego nie może jej użyć ).