Mogę spóźnić się na przyjęcie, ale wydaje się, że są tu pewne rzeczy, które należy wyjaśnić.
g(x)∂C∂zCz
C(y,g(z))=12(y−g(z))2g(x)=x∂C(y,g(z))∂z=∂C(y,g(z))∂g(z)⋅∂g(z)∂z=∂∂g(z)(12(y−g(z))2)⋅∂∂z(z)=−(y−g(z))⋅1=g(z)−y
∂C∂z
∂C∂z
Po drugie, chciałbym dodać, że istnieje wiele funkcji aktywacyjnych, których można użyć dla ukrytych warstw. Sigmoidy (takie jak funkcja logistyczna i styczna hiperboliczna) rzeczywiście sprawdziły się dobrze, ale jak wskazał Jatin , cierpią one na zanikanie gradientów, gdy sieci stają się zbyt głębokie. W takim przypadku ReLU stały się popularne. Chciałbym jednak podkreślić, że dostępnych jest znacznie więcej funkcji aktywacyjnych, a różni badacze wciąż szukają nowych (np. Wykładnicze jednostki liniowe (ELU), jednostki liniowe błędu Gaussa (GELU), ...) z różnymi / lepsze właściwości
Podsumowując: Szukając najlepszych funkcji aktywacyjnych, bądź kreatywny. Wypróbuj różne rzeczy i zobacz, jakie kombinacje prowadzą do najlepszej wydajności.
Dodatek: Aby uzyskać więcej par funkcji i aktywacji utraty, prawdopodobnie chcesz poszukać (kanonicznych) funkcji łącza