Odnosząc się do notatek z kursu Stanford na temat sieci neuronowych splotowych do rozpoznawania wzrokowego , akapit mówi:
„Niestety jednostki ReLU mogą być kruche podczas treningu i mogą„ umrzeć ”. Na przykład duży gradient przepływający przez neuron ReLU może spowodować aktualizację wag w taki sposób, że neuron nigdy więcej się nie aktywuje w żadnym punkcie danych. Jeśli to tak się stanie, wtedy gradient przepływający przez jednostkę będzie odtąd zawsze wynosił zero. Oznacza to, że jednostki ReLU mogą nieodwracalnie umrzeć podczas treningu, ponieważ mogą zostać zrzucone z rozmaitości danych. Na przykład może się okazać, że aż 40 % sieci może być „martwy” (tj. neurony, które nigdy nie aktywują się w całym zbiorze danych szkoleniowych), jeśli szybkość uczenia się jest ustawiona na zbyt wysoką wartość. Przy właściwym ustawieniu szybkości uczenia się jest to mniejszy problem. ”
Co oznacza tutaj umieranie neuronów?
Czy możesz podać intuicyjne wyjaśnienie w prostszych terminach.