Statystyki i duże zbiory danych backpropagation

2

Jaka jest korzyść z obciętego rozkładu normalnego przy inicjowaniu ciężarów w sieci neuronowej?

Podczas inicjowania wag połączeń w sieci neuronowej ze sprzężeniem zwrotnym ważne jest, aby inicjować je losowo, aby uniknąć symetrii, których algorytm uczenia się nie byłby w stanie złamać. Zalecenie, które widziałem w różnych miejscach (np. W samouczku MNIST firmy TensorFlow ), to stosowanie skróconego rozkładu normalnego przy użyciu standardowego odchylenia …

13 neural-networks backpropagation weights truncated-normal

2

Dlaczego RNN z jednostkami LSTM może cierpieć z powodu „eksplodujących gradientów”?

Mam podstawową wiedzę na temat działania RNN (a zwłaszcza jednostek LSTM). Mam obrazowe wyobrażenie o architekturze jednostki LSTM, czyli komórki i kilku bramek, które regulują przepływ wartości. Jednak najwyraźniej nie do końca zrozumiałem, w jaki sposób LSTM rozwiązuje problem „znikania i eksplodowania gradientów”, który pojawia się podczas treningu, z wykorzystaniem …

13 neural-networks lstm rnn backpropagation

1

Matrycowa forma propagacji wstecznej z normalizacją partii

Normalizacji partii przypisano znaczną poprawę wydajności w głębokich sieciach neuronowych. Wiele materiałów w Internecie pokazuje, jak wdrożyć je na zasadzie aktywacja po aktywacji. Zaimplementowałem już backprop za pomocą algebry macierzy i biorąc pod uwagę, że pracuję w językach wysokiego poziomu (polegając na Rcpp(i ewentualnie GPU) na gęstym mnożeniu macierzy), zgrywanie …

12 machine-learning neural-networks deep-learning backpropagation batch-normalization

2

Przechwytywanie początkowych wzorców podczas korzystania ze skróconej propagacji wstecznej w czasie (RNN / LSTM)

Powiedz, że używam RNN / LSTM do analizy sentymentu, co jest podejściem typu jeden do jednego (patrz ten blog ). Sieć jest trenowana przez skróconą propagację wsteczną w czasie (BPTT), w której sieć jest rozwijana tylko przez 30 ostatnich kroków, jak zwykle. W moim przypadku każda z moich sekcji tekstowych, …

12 neural-networks deep-learning natural-language backpropagation

2

W jaki sposób opadanie gradientu minibatch aktualizuje wagi dla każdego przykładu w partii?

Jeśli przetwarzamy powiedzmy 10 przykładów w partii, rozumiem, że możemy zsumować stratę dla każdego przykładu, ale jak działa propagacja wsteczna w odniesieniu do aktualizacji wag dla każdego przykładu? Na przykład: Przykład 1 -> strata = 2 Przykład 2 -> strata = -2 Powoduje to średnią stratę 0 (E = 0), …

12 neural-networks gradient-descent backpropagation tensorflow

2

Jak wytrenować SVM poprzez propagację wsteczną?

Zastanawiałem się, czy można wyszkolić maszynę SVM (powiedzmy liniową, aby ułatwić) za pomocą propagacji wstecznej? Obecnie jestem w bloku drogowego, ponieważ mogę tylko myśleć o pisaniu wyjście klasyfikatora jako fa( x ; θ , b ) = sgn ( θ ⋅ x - ( b + 1 ) ) = …

11 machine-learning neural-networks svm gradient-descent backpropagation

1

Szkolenie splotowej sieci neuronowej

Obecnie pracuję nad oprogramowaniem do rozpoznawania twarzy, które wykorzystuje sieci neuronowe splotu do rozpoznawania twarzy. Na podstawie moich odczytów stwierdziłem, że splotowa sieć neuronowa ma takie same ciężary, aby zaoszczędzić czas podczas treningu. Ale w jaki sposób dostosowuje się propagację wsteczną, aby można ją było wykorzystać w sieci neuronowej splotu. …

11 machine-learning neural-networks computer-vision backpropagation conv-neural-network

2

Co to jest wstępne szkolenie i jak wstępnie szkolić sieć neuronową?

Rozumiem, że szkolenie wstępne jest stosowane, aby uniknąć niektórych problemów z konwencjonalnym treningiem. Jeśli używam propagacji wstecznej z, powiedzmy autoencoderem, wiem, że napotkam problemy z czasem, ponieważ propagacja wsteczna jest powolna, a także że mogę utknąć w lokalnych optymach i nie nauczyć się niektórych funkcji. To, czego nie rozumiem, to …

10 machine-learning neural-networks backpropagation rbm pre-training

1

Gradienty dla słowa skipgram 2

Przechodzę przez problemy w pisemnych problemach z klasą głębokiego uczenia się NLP Stanforda http://cs224d.stanford.edu/assignment1/assignment1_soln Próbuję zrozumieć odpowiedź dla 3a, gdzie szukają pochodnej wektora dla środkowego słowa. Załóżmy, że otrzymałeś przewidywany wektor słowa odpowiadający środkowemu słowu c dla skipgramu, a przewidywania słów dokonuje się za pomocą funkcji softmax występującej w modelach …

9 self-study neural-networks backpropagation word2vec

Pytania otagowane jako backpropagation