Pytania otagowane jako activation-function

2
Dlaczego ReLU jest używane jako funkcja aktywacji?
Funkcje aktywacyjne służą do wprowadzenia nieliniowości w liniowym wyjściu typu w * x + bw sieci neuronowej. Które jestem w stanie zrozumieć intuicyjnie dla funkcji aktywacyjnych takich jak sigmoid. Rozumiem zalety ReLU, które pozwala uniknąć martwych neuronów podczas propagacji wstecznej. Jednak nie jestem w stanie zrozumieć, dlaczego ReLU jest używane …

2
Co to jest aktywacja GELU?
Przeglądałem artykuł BERT, który używa GELU (Gaussian Error Linear Unit), który podaje równanie jako co z kolei jest przybliżone doGELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) Czy możesz uprościć równanie i wyjaśnić, w jaki sposób zostało przybliżone.

1
Dlaczego ReLU jest lepszy niż inne funkcje aktywacyjne
Tutaj odpowiedź odnosi się do znikania i eksplodowania gradientów, które były sigmoidpodobne do funkcji aktywacyjnych, ale, jak sądzę, Relumają wadę i są to oczekiwana wartość. nie ma ograniczeń dla wyjścia, Reluwięc jego oczekiwana wartość nie jest równa zero. Pamiętam czas, zanim popularność Reluta tanhbyła najbardziej popularna wśród ekspertów w dziedzinie …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.