Dużo czytałem o splotowych sieciach neuronowych i zastanawiałem się, w jaki sposób unikają problemu znikającego gradientu. Wiem, że sieci głębokiego przekonania stosują auto-kodery jednopoziomowe lub inne wstępnie wyszkolone płytkie sieci, dzięki czemu mogę uniknąć tego problemu, ale nie wiem, jak można go uniknąć w sieciach CNN.
Według Wikipedii :
„pomimo wyżej wspomnianego„ znikającego problemu z gradientem ”,„ doskonała moc obliczeniowa procesorów graficznych sprawia, że możliwa jest zwykła propagacja wsteczna dla głębokich sieci neuronowych z wieloma warstwami ”.
Nie rozumiem, dlaczego przetwarzanie GPU usunęło ten problem?
GPU's are fast correlated with vanishing gradients
, rozumiem szybką logikę z dużą przepustowością pamięci do przetwarzania wielu multiplikacji macierzy! ale czy mógłbyś wyjaśnić, co to ma wspólnego z pochodnymi? Problem znikającego gradientu wydaje się robić więcej przy inicjalizacji wagi , prawda?