Pytania otagowane jako lstm

Długotrwała pamięć krótkoterminowa (LSTM) to architektura sieci neuronowej, która zawiera powtarzające się bloki NN, które mogą zapamiętywać wartość przez dowolny czas.

2
Dlaczego RNN z jednostkami LSTM może cierpieć z powodu „eksplodujących gradientów”?
Mam podstawową wiedzę na temat działania RNN (a zwłaszcza jednostek LSTM). Mam obrazowe wyobrażenie o architekturze jednostki LSTM, czyli komórki i kilku bramek, które regulują przepływ wartości. Jednak najwyraźniej nie do końca zrozumiałem, w jaki sposób LSTM rozwiązuje problem „znikania i eksplodowania gradientów”, który pojawia się podczas treningu, z wykorzystaniem …

2
Obsługa nieznanych słów w zadaniach modelowania języka za pomocą LSTM
W przypadku zadania przetwarzania języka naturalnego (NLP) często wykorzystuje się wektory word2vec jako osadzenie słów. Jednak może istnieć wiele nieznanych słów, które nie są przechwytywane przez wektory word2vec po prostu dlatego, że słowa te nie są wystarczająco często widoczne w danych szkoleniowych (wiele implementacji używa minimalnej liczby przed dodaniem słowa …

1
Prognozowanie szeregów czasowych przy użyciu ARIMA vs LSTM
Problemem, z którym mam do czynienia, jest przewidywanie wartości szeregów czasowych. Patrzę na jeden szereg czasowy naraz i na podstawie np. 15% danych wejściowych chciałbym przewidzieć jego przyszłe wartości. Do tej pory natknąłem się na dwa modele: LSTM (długoterminowa pamięć krótkotrwała; klasa rekurencyjnych sieci neuronowych) ARIMA Próbowałem obu i przeczytałem …

3
Struktura rekurencyjnej sieci neuronowej (LSTM, GRU)
Próbuję zrozumieć architekturę RNN. Znalazłem ten samouczek, który był bardzo pomocny: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Zwłaszcza ten obraz: Jak to pasuje do sieci feed-forward? Czy ten obraz jest po prostu innym węzłem w każdej warstwie?

1
Zrozumienie topologii LSTM
Tak jak wielu innych, znalazłem tu i tutaj zasoby niezwykle przydatne do zrozumienia komórek LSTM. Jestem pewien, że rozumiem, w jaki sposób wartości płyną i są aktualizowane, i jestem wystarczająco pewny, aby dodać wspomniane „połączenia z wizjerami” itp. W moim przykładzie za każdym razem mam wektor wejściowy długości ii wektor …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.