Pytania otagowane jako backpropagation

Propagacja wsteczna, skrót od „wstecznej propagacji błędów”, jest powszechną metodą uczenia sztucznych sieci neuronowych używaną w połączeniu z metodą optymalizacji, taką jak zstępowanie gradientowe.

2
Jaka jest korzyść z obciętego rozkładu normalnego przy inicjowaniu ciężarów w sieci neuronowej?
Podczas inicjowania wag połączeń w sieci neuronowej ze sprzężeniem zwrotnym ważne jest, aby inicjować je losowo, aby uniknąć symetrii, których algorytm uczenia się nie byłby w stanie złamać. Zalecenie, które widziałem w różnych miejscach (np. W samouczku MNIST firmy TensorFlow ), to stosowanie skróconego rozkładu normalnego przy użyciu standardowego odchylenia …

2
Dlaczego RNN z jednostkami LSTM może cierpieć z powodu „eksplodujących gradientów”?
Mam podstawową wiedzę na temat działania RNN (a zwłaszcza jednostek LSTM). Mam obrazowe wyobrażenie o architekturze jednostki LSTM, czyli komórki i kilku bramek, które regulują przepływ wartości. Jednak najwyraźniej nie do końca zrozumiałem, w jaki sposób LSTM rozwiązuje problem „znikania i eksplodowania gradientów”, który pojawia się podczas treningu, z wykorzystaniem …

1
Matrycowa forma propagacji wstecznej z normalizacją partii
Normalizacji partii przypisano znaczną poprawę wydajności w głębokich sieciach neuronowych. Wiele materiałów w Internecie pokazuje, jak wdrożyć je na zasadzie aktywacja po aktywacji. Zaimplementowałem już backprop za pomocą algebry macierzy i biorąc pod uwagę, że pracuję w językach wysokiego poziomu (polegając na Rcpp(i ewentualnie GPU) na gęstym mnożeniu macierzy), zgrywanie …

2
Przechwytywanie początkowych wzorców podczas korzystania ze skróconej propagacji wstecznej w czasie (RNN / LSTM)
Powiedz, że używam RNN / LSTM do analizy sentymentu, co jest podejściem typu jeden do jednego (patrz ten blog ). Sieć jest trenowana przez skróconą propagację wsteczną w czasie (BPTT), w której sieć jest rozwijana tylko przez 30 ostatnich kroków, jak zwykle. W moim przypadku każda z moich sekcji tekstowych, …

2
W jaki sposób opadanie gradientu minibatch aktualizuje wagi dla każdego przykładu w partii?
Jeśli przetwarzamy powiedzmy 10 przykładów w partii, rozumiem, że możemy zsumować stratę dla każdego przykładu, ale jak działa propagacja wsteczna w odniesieniu do aktualizacji wag dla każdego przykładu? Na przykład: Przykład 1 -> strata = 2 Przykład 2 -> strata = -2 Powoduje to średnią stratę 0 (E = 0), …


1
Szkolenie splotowej sieci neuronowej
Obecnie pracuję nad oprogramowaniem do rozpoznawania twarzy, które wykorzystuje sieci neuronowe splotu do rozpoznawania twarzy. Na podstawie moich odczytów stwierdziłem, że splotowa sieć neuronowa ma takie same ciężary, aby zaoszczędzić czas podczas treningu. Ale w jaki sposób dostosowuje się propagację wsteczną, aby można ją było wykorzystać w sieci neuronowej splotu. …

2
Co to jest wstępne szkolenie i jak wstępnie szkolić sieć neuronową?
Rozumiem, że szkolenie wstępne jest stosowane, aby uniknąć niektórych problemów z konwencjonalnym treningiem. Jeśli używam propagacji wstecznej z, powiedzmy autoencoderem, wiem, że napotkam problemy z czasem, ponieważ propagacja wsteczna jest powolna, a także że mogę utknąć w lokalnych optymach i nie nauczyć się niektórych funkcji. To, czego nie rozumiem, to …

1
Gradienty dla słowa skipgram 2
Przechodzę przez problemy w pisemnych problemach z klasą głębokiego uczenia się NLP Stanforda http://cs224d.stanford.edu/assignment1/assignment1_soln Próbuję zrozumieć odpowiedź dla 3a, gdzie szukają pochodnej wektora dla środkowego słowa. Załóżmy, że otrzymałeś przewidywany wektor słowa odpowiadający środkowemu słowu c dla skipgramu, a przewidywania słów dokonuje się za pomocą funkcji softmax występującej w modelach …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.