Tutaj odpowiedź odnosi się do znikania i eksplodowania gradientów, które były sigmoidpodobne do funkcji aktywacyjnych, ale, jak sądzę, Relumają wadę i są to oczekiwana wartość. nie ma ograniczeń dla wyjścia, Reluwięc jego oczekiwana wartość nie jest równa zero. Pamiętam czas, zanim popularność Reluta tanhbyła najbardziej popularna wśród ekspertów w dziedzinie uczenia maszynowego sigmoid. Powodem było to, że oczekiwana wartość tanhbyła równa zero i pomogło to w uczeniu się w głębszych warstwach, aby było szybsze w sieci neuronowej. Relunie ma tej cechy, ale dlaczego działa tak dobrze, jeśli odłożymy na bok jego przewagę pochodną. Co więcej, myślę, że może to dotyczyć również pochodnej. Ponieważ aktywacje (wyjście zRelu) są zaangażowane w obliczanie reguł aktualizacji.
CNNnormalizacji wyjście relunie jest powszechne? Przynajmniej nigdy tego nie widziałem.