Odpowiedzi:
W większości masz rację! ReLU ma problem z zanikaniem gradientu, ale tylko z jednej strony, dlatego nazywamy to czymś innym: „umierającym problemem ReLU”. Zobacz tę odpowiedź na przepełnienie stosu, aby uzyskać więcej informacji: Na czym polega problem „umierania ReLU” w sieciach neuronowych?
To niewielka różnica semantyczna. Wiele funkcji (tanh i logistic / sigmoid) ma pochodne bardzo zbliżone do zera, gdy jesteś poza standardowym zakresem działania. Jest to problem „znikającego gradientu”. Im gorzej, tym trudniej jest wrócić do dobrej strefy. ReLU nie pogarsza się, im dalej jesteś w kierunku dodatnim, więc nie ma problemu z zanikającym gradientem (po tej stronie). Ta asymetria może być wystarczająca, aby uzasadnić nazywanie tego czymś innym, ale pomysły są dość podobne.
Znikanie oznacza, że zmierza w kierunku 0, ale tak naprawdę nigdy nie będzie 0. Posiadanie gradientów 0 pozwala na bardzo łatwe obliczenia, posiadanie gradientów bliskich 0 oznacza, że są zmiany, tylko bardzo małe, co oznacza powolne uczenie się i problemy numeryczne. 1 i 0 to dwie najłatwiejsze liczby do obliczenia w tego rodzaju problemach z optymalizacją.