Propagacja wsteczna, skrót od „wstecznej propagacji błędów”, jest powszechną metodą uczenia sztucznych sieci neuronowych używaną w połączeniu z metodą optymalizacji, taką jak zstępowanie gradientowe.
Podczas inicjowania wag połączeń w sieci neuronowej ze sprzężeniem zwrotnym ważne jest, aby inicjować je losowo, aby uniknąć symetrii, których algorytm uczenia się nie byłby w stanie złamać. Zalecenie, które widziałem w różnych miejscach (np. W samouczku MNIST firmy TensorFlow ), to stosowanie skróconego rozkładu normalnego przy użyciu standardowego odchylenia …
Mam podstawową wiedzę na temat działania RNN (a zwłaszcza jednostek LSTM). Mam obrazowe wyobrażenie o architekturze jednostki LSTM, czyli komórki i kilku bramek, które regulują przepływ wartości. Jednak najwyraźniej nie do końca zrozumiałem, w jaki sposób LSTM rozwiązuje problem „znikania i eksplodowania gradientów”, który pojawia się podczas treningu, z wykorzystaniem …
Normalizacji partii przypisano znaczną poprawę wydajności w głębokich sieciach neuronowych. Wiele materiałów w Internecie pokazuje, jak wdrożyć je na zasadzie aktywacja po aktywacji. Zaimplementowałem już backprop za pomocą algebry macierzy i biorąc pod uwagę, że pracuję w językach wysokiego poziomu (polegając na Rcpp(i ewentualnie GPU) na gęstym mnożeniu macierzy), zgrywanie …
Powiedz, że używam RNN / LSTM do analizy sentymentu, co jest podejściem typu jeden do jednego (patrz ten blog ). Sieć jest trenowana przez skróconą propagację wsteczną w czasie (BPTT), w której sieć jest rozwijana tylko przez 30 ostatnich kroków, jak zwykle. W moim przypadku każda z moich sekcji tekstowych, …
Jeśli przetwarzamy powiedzmy 10 przykładów w partii, rozumiem, że możemy zsumować stratę dla każdego przykładu, ale jak działa propagacja wsteczna w odniesieniu do aktualizacji wag dla każdego przykładu? Na przykład: Przykład 1 -> strata = 2 Przykład 2 -> strata = -2 Powoduje to średnią stratę 0 (E = 0), …
Zastanawiałem się, czy można wyszkolić maszynę SVM (powiedzmy liniową, aby ułatwić) za pomocą propagacji wstecznej? Obecnie jestem w bloku drogowego, ponieważ mogę tylko myśleć o pisaniu wyjście klasyfikatora jako fa( x ; θ , b ) = sgn ( θ ⋅ x - ( b + 1 ) ) = …
Obecnie pracuję nad oprogramowaniem do rozpoznawania twarzy, które wykorzystuje sieci neuronowe splotu do rozpoznawania twarzy. Na podstawie moich odczytów stwierdziłem, że splotowa sieć neuronowa ma takie same ciężary, aby zaoszczędzić czas podczas treningu. Ale w jaki sposób dostosowuje się propagację wsteczną, aby można ją było wykorzystać w sieci neuronowej splotu. …
Rozumiem, że szkolenie wstępne jest stosowane, aby uniknąć niektórych problemów z konwencjonalnym treningiem. Jeśli używam propagacji wstecznej z, powiedzmy autoencoderem, wiem, że napotkam problemy z czasem, ponieważ propagacja wsteczna jest powolna, a także że mogę utknąć w lokalnych optymach i nie nauczyć się niektórych funkcji. To, czego nie rozumiem, to …
Przechodzę przez problemy w pisemnych problemach z klasą głębokiego uczenia się NLP Stanforda http://cs224d.stanford.edu/assignment1/assignment1_soln Próbuję zrozumieć odpowiedź dla 3a, gdzie szukają pochodnej wektora dla środkowego słowa. Załóżmy, że otrzymałeś przewidywany wektor słowa odpowiadający środkowemu słowu c dla skipgramu, a przewidywania słów dokonuje się za pomocą funkcji softmax występującej w modelach …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.