Tutaj odpowiedź odnosi się do znikania i eksplodowania gradientów, które były sigmoid
podobne do funkcji aktywacyjnych, ale, jak sądzę, Relu
mają wadę i są to oczekiwana wartość. nie ma ograniczeń dla wyjścia, Relu
więc jego oczekiwana wartość nie jest równa zero. Pamiętam czas, zanim popularność Relu
ta tanh
była najbardziej popularna wśród ekspertów w dziedzinie uczenia maszynowego sigmoid
. Powodem było to, że oczekiwana wartość tanh
była równa zero i pomogło to w uczeniu się w głębszych warstwach, aby było szybsze w sieci neuronowej. Relu
nie ma tej cechy, ale dlaczego działa tak dobrze, jeśli odłożymy na bok jego przewagę pochodną. Co więcej, myślę, że może to dotyczyć również pochodnej. Ponieważ aktywacje (wyjście zRelu
) są zaangażowane w obliczanie reguł aktualizacji.
CNN
normalizacji wyjście relu
nie jest powszechne? Przynajmniej nigdy tego nie widziałem.