LSTM został opracowany specjalnie w celu uniknięcia problemu zanikania gradientu. Ma to zrobić za pomocą karuzeli Constant Error (CEC), która na poniższym schemacie ( Greff i in. ) Odpowiada pętli wokół komórki .
(źródło: deeplearning4j.org )
Rozumiem, że ta część może być postrzegana jako rodzaj funkcji tożsamości, więc pochodna jest jedna, a gradient pozostaje stały.
Nie rozumiem tylko, jak nie znika z powodu innych funkcji aktywacyjnych? Bramki wejściowe, wyjściowe i zapomniane używają sigmoidu, którego pochodna wynosi co najwyżej 0,25, a g i h były tradycyjnie tanh . W jaki sposób propagacja wsteczna przez te nie powoduje zniknięcia gradientu?