Relu ma z definicji 0 gradient, to dlaczego zniknięcie gradientu nie jest problemem dla x <0?

10

Z definicji Relu jest max(0,f(x)). Następnie jej nachylenie jest zdefiniowany jako: 1 if x > 0 and 0 if x < 0.

Czy nie oznacza to, że gradient zawsze wynosi 0 (znika), gdy x <0? Dlaczego więc mówimy, że Relu nie cierpi z powodu problemu znikania gradientu?

deep-learning

— Edamame
źródło

5

W większości masz rację! ReLU ma problem z zanikaniem gradientu, ale tylko z jednej strony, dlatego nazywamy to czymś innym: „umierającym problemem ReLU”. Zobacz tę odpowiedź na przepełnienie stosu, aby uzyskać więcej informacji: Na czym polega problem „umierania ReLU” w sieciach neuronowych?

To niewielka różnica semantyczna. Wiele funkcji (tanh i logistic / sigmoid) ma pochodne bardzo zbliżone do zera, gdy jesteś poza standardowym zakresem działania. Jest to problem „znikającego gradientu”. Im gorzej, tym trudniej jest wrócić do dobrej strefy. ReLU nie pogarsza się, im dalej jesteś w kierunku dodatnim, więc nie ma problemu z zanikającym gradientem (po tej stronie). Ta asymetria może być wystarczająca, aby uzasadnić nazywanie tego czymś innym, ale pomysły są dość podobne.

— Joseph Catrambone
źródło

2

Warto dodać: Problem zanikającego gradientu zwykle dotyczy postępujących zmian na głębokości sieci, a nie bezpośrednio właściwości właściwości przenoszenia neuronów.

— Neil Slater,

1

Znikanie oznacza, że zmierza w kierunku 0, ale tak naprawdę nigdy nie będzie 0. Posiadanie gradientów 0 pozwala na bardzo łatwe obliczenia, posiadanie gradientów bliskich 0 oznacza, że są zmiany, tylko bardzo małe, co oznacza powolne uczenie się i problemy numeryczne. 1 i 0 to dwie najłatwiejsze liczby do obliczenia w tego rodzaju problemach z optymalizacją.

— Jan van der Vegt
źródło