Normalizacja partii i ReLU są rozwiązaniami problemu znikającego gradientu. Jeśli używamy normalizacji wsadowej, czy powinniśmy używać sigmoidów? A może istnieją funkcje ReLU, które sprawiają, że są one opłacalne nawet podczas korzystania z batchnorm?
Przypuszczam, że normalizacja przeprowadzona w trybie wsadowym wyśle zero aktywacji ujemnych. Czy to oznacza, że batchnorm rozwiązuje problem „martwego ReLU”?
Ale ciągła natura tanh i logistyki pozostaje atrakcyjna. Jeśli używam batchnorm, czy tanh będzie działać lepiej niż ReLU?
Jestem pewien, że odpowiedź zależy . Co zatem sprawdziło się w twoim doświadczeniu i jakie są istotne cechy twojej aplikacji?