Pytania otagowane jako rnn

Powtarzalna sieć neuronowa (RNN) to klasa sztucznych sieci neuronowych, w których połączenia między jednostkami tworzą ukierunkowany cykl.


5
Zrozumienie jednostek LSTM vs. komórek
Przez jakiś czas studiowałem LSTM. Rozumiem na wysokim poziomie, jak wszystko działa. Jednak zamierzając je zaimplementować za pomocą Tensorflow, zauważyłem, że BasicLSTMCell wymaga szeregunum_units parametrów (tj. ) Parametrów. Z tego bardzo dokładnego wyjaśnienia LSTM wynika, że ​​jedna jednostka LSTM jest jedną z poniższych który w rzeczywistości jest jednostką GRU. Zakładam, …


3
Jakie są zalety układania wielu LSTM?
Jakie są zalety, dlaczego warto korzystać z wielu LSTM, ułożonych jeden obok drugiego, w sieci głębokiej? Używam LSTM do reprezentowania sekwencji danych wejściowych jako pojedynczego wejścia. Więc kiedy mam tę pojedynczą reprezentację - dlaczego miałbym ją powtórzyć? Pytam o to, ponieważ widziałem to w programie generowania języka naturalnego.

1
Czym dokładnie są mechanizmy uwagi?
Mechanizmy uwagi były wykorzystywane w różnych artykułach Deep Learning w ciągu ostatnich kilku lat. Ilya Sutskever, kierownik badań w Open AI, entuzjastycznie je chwali: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello z Purdue University stwierdził, że RNN i LSTM należy porzucić na rzecz sieci neuronowych opartych wyłącznie na uwadze: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Wydaje się to przesadą, …


4
Różnica między sprzężeniem zwrotnym RNN i LSTM / GRU
Próbuję zrozumieć różne architektury RNN (Recurrent Neural Network), które mają być zastosowane do danych szeregów czasowych, i zaczynam się mylić z różnymi nazwami, które są często używane przy opisywaniu RNN. Czy struktura Długiej pamięci krótkoterminowej (LSTM) i Gated Recurrent Unit (GRU) jest zasadniczo RNN z pętlą sprzężenia zwrotnego?

3
Dlaczego wagi sieci RNN / LSTM są dzielone w czasie?
Ostatnio zainteresowałem się LSTM i byłem zaskoczony, gdy dowiedziałem się, że wagi są dzielone w czasie. Wiem, że jeśli dzielisz wagi w czasie, to twoje wejściowe sekwencje czasowe mogą mieć zmienną długość. Dzielone ciężary pozwalają trenować o wiele mniej parametrów. Z mojego zrozumienia, powód, dla którego warto przejść na LSTM …


3
Różnica między próbkami, krokami czasowymi i cechami w sieci neuronowej
Przeglądam następujący blog na sieci neuronowej LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ Autor przekształca wektor wejściowy X jako [próbki, przedziały czasowe, cechy] dla różnych konfiguracji LSTM. Autor pisze Rzeczywiście, sekwencje liter są krokami czasowymi jednej cechy, a nie krokiem czasu oddzielnych cech. Daliśmy sieci większy kontekst, ale nie więcej sekwencji, niż się spodziewano Co …

1
RNN: kiedy stosować BPTT i / lub aktualizować wagi?
Próbuję zrozumieć ogólne zastosowanie RNN do znakowania sekwencji za pomocą (między innymi) artykułu Gravesa z 2005 r. Na temat klasyfikacji fonemów. Podsumowując problem: Mamy duży zestaw szkoleniowy składający się z (wejściowych) plików audio z pojedynczych zdań i (wyjściowych) opatrzonych znakiem eksperckim czasów rozpoczęcia, czasów zatrzymania i etykiet dla poszczególnych fonemów …
16 lstm  rnn 


3
Dlaczego wstecz propaguje się w czasie w sieci RNN?
W nawracającej sieci neuronowej zwykle propagujesz w przód przez kilka kroków czasowych, „rozwijasz” sieć, a następnie w tył propagujesz w sekwencji danych wejściowych. Dlaczego po prostu nie aktualizowałbyś wag po każdym indywidualnym kroku w sekwencji? (odpowiednik użycia długości obcięcia 1, więc nie ma nic do rozwinięcia) To całkowicie eliminuje problem …

2
Dlaczego RNN z jednostkami LSTM może cierpieć z powodu „eksplodujących gradientów”?
Mam podstawową wiedzę na temat działania RNN (a zwłaszcza jednostek LSTM). Mam obrazowe wyobrażenie o architekturze jednostki LSTM, czyli komórki i kilku bramek, które regulują przepływ wartości. Jednak najwyraźniej nie do końca zrozumiałem, w jaki sposób LSTM rozwiązuje problem „znikania i eksplodowania gradientów”, który pojawia się podczas treningu, z wykorzystaniem …

3
Hidden Markov Model vs Recurrent Neural Network
Które problemy z sekwencyjnym wejściem są najbardziej odpowiednie dla każdego? Czy wymiar wejściowy określa, które z nich jest lepsze? Czy problemy wymagające „dłuższej pamięci” lepiej pasują do RNN LSTM, podczas gdy problemy z cyklicznymi wzorcami wprowadzania danych (giełda, pogoda) są łatwiejsze do rozwiązania przez HMM? Wygląda na to, że nakładają …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.