Nauka danych activation-function

2

Dlaczego ReLU jest używane jako funkcja aktywacji?

Funkcje aktywacyjne służą do wprowadzenia nieliniowości w liniowym wyjściu typu w * x + bw sieci neuronowej. Które jestem w stanie zrozumieć intuicyjnie dla funkcji aktywacyjnych takich jak sigmoid. Rozumiem zalety ReLU, które pozwala uniknąć martwych neuronów podczas propagacji wstecznej. Jednak nie jestem w stanie zrozumieć, dlaczego ReLU jest używane …

19 machine-learning neural-network deep-learning activation-function

2

Co to jest aktywacja GELU?

Przeglądałem artykuł BERT, który używa GELU (Gaussian Error Linear Unit), który podaje równanie jako co z kolei jest przybliżone doGELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) Czy możesz uprościć równanie i wyjaśnić, w jaki sposób zostało przybliżone.

18 activation-function bert mathematics

1

Dlaczego ReLU jest lepszy niż inne funkcje aktywacyjne

Tutaj odpowiedź odnosi się do znikania i eksplodowania gradientów, które były sigmoidpodobne do funkcji aktywacyjnych, ale, jak sądzę, Relumają wadę i są to oczekiwana wartość. nie ma ograniczeń dla wyjścia, Reluwięc jego oczekiwana wartość nie jest równa zero. Pamiętam czas, zanim popularność Reluta tanhbyła najbardziej popularna wśród ekspertów w dziedzinie …

17 machine-learning neural-network deep-learning gradient-descent activation-function

1

Różnica funkcji aktywacyjnych w sieciach neuronowych ogólnie

Badałem typy funkcji aktywacyjnych dla sieci neuronowych. Same funkcje są dość proste, ale różnica w aplikacji nie jest do końca jasna. Rozsądne jest rozróżnienie funkcji typu logicznego i liniowego, w zależności od pożądanego wyjścia binarnego / ciągłego, ale jaka jest przewaga funkcji sigmoidalnej nad prostą funkcją liniową? ReLU jest dla …

15 neural-network activation-function

Pytania otagowane jako activation-function