Przez jakiś czas studiowałem LSTM. Rozumiem na wysokim poziomie, jak wszystko działa. Jednak zamierzając je zaimplementować za pomocą Tensorflow, zauważyłem, że BasicLSTMCell wymaga szeregunum_units parametrów (tj. ) Parametrów. Z tego bardzo dokładnego wyjaśnienia LSTM wynika, że jedna jednostka LSTM jest jedną z poniższych który w rzeczywistości jest jednostką GRU. Zakładam, …
Ostatnio czytałem, że nawracająca sieć neuronowa może aproksymować dowolny algorytm. Więc moje pytanie brzmi: co to dokładnie oznacza i czy możesz podać mi odniesienie, w którym zostało to udowodnione?
Jakie są zalety, dlaczego warto korzystać z wielu LSTM, ułożonych jeden obok drugiego, w sieci głębokiej? Używam LSTM do reprezentowania sekwencji danych wejściowych jako pojedynczego wejścia. Więc kiedy mam tę pojedynczą reprezentację - dlaczego miałbym ją powtórzyć? Pytam o to, ponieważ widziałem to w programie generowania języka naturalnego.
Mechanizmy uwagi były wykorzystywane w różnych artykułach Deep Learning w ciągu ostatnich kilku lat. Ilya Sutskever, kierownik badań w Open AI, entuzjastycznie je chwali: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello z Purdue University stwierdził, że RNN i LSTM należy porzucić na rzecz sieci neuronowych opartych wyłącznie na uwadze: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Wydaje się to przesadą, …
To pytanie ma już odpowiedzi tutaj : Jak zmiana funkcji kosztów może być dodatnia? (1 odpowiedź) Co powinienem zrobić, gdy moja sieć neuronowa się nie uczy? (5 odpowiedzi) Zamknięte w zeszłym miesiącu . Trenuję model (Recurrent Neural Network) do klasyfikowania 4 typów sekwencji. Gdy prowadzę trening, widzę spadek treningu do …
Próbuję zrozumieć różne architektury RNN (Recurrent Neural Network), które mają być zastosowane do danych szeregów czasowych, i zaczynam się mylić z różnymi nazwami, które są często używane przy opisywaniu RNN. Czy struktura Długiej pamięci krótkoterminowej (LSTM) i Gated Recurrent Unit (GRU) jest zasadniczo RNN z pętlą sprzężenia zwrotnego?
Ostatnio zainteresowałem się LSTM i byłem zaskoczony, gdy dowiedziałem się, że wagi są dzielone w czasie. Wiem, że jeśli dzielisz wagi w czasie, to twoje wejściowe sekwencje czasowe mogą mieć zmienną długość. Dzielone ciężary pozwalają trenować o wiele mniej parametrów. Z mojego zrozumienia, powód, dla którego warto przejść na LSTM …
RNN może być wykorzystywany do przewidywania lub mapowania sekwencji do sekwencji. Ale w jaki sposób można użyć RNN do klasyfikacji? Dajemy całej sekwencji jedną etykietę.
Przeglądam następujący blog na sieci neuronowej LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ Autor przekształca wektor wejściowy X jako [próbki, przedziały czasowe, cechy] dla różnych konfiguracji LSTM. Autor pisze Rzeczywiście, sekwencje liter są krokami czasowymi jednej cechy, a nie krokiem czasu oddzielnych cech. Daliśmy sieci większy kontekst, ale nie więcej sekwencji, niż się spodziewano Co …
Próbuję zrozumieć ogólne zastosowanie RNN do znakowania sekwencji za pomocą (między innymi) artykułu Gravesa z 2005 r. Na temat klasyfikacji fonemów. Podsumowując problem: Mamy duży zestaw szkoleniowy składający się z (wejściowych) plików audio z pojedynczych zdań i (wyjściowych) opatrzonych znakiem eksperckim czasów rozpoczęcia, czasów zatrzymania i etykiet dla poszczególnych fonemów …
Szukam projektu optycznego rozpoznawania znaków (OCR). Po przeprowadzeniu badań natrafiłem na architekturę, która wydaje się interesująca: CNN + RNN + CTC. Znam zwinięte sieci neuronowe (CNN) i rekurencyjne sieci neuronowe (RNN), ale czym jest klasyfikacja czasowa łącznika (CTC)? Chciałbym wyjaśnienia w kategoriach laika.
W nawracającej sieci neuronowej zwykle propagujesz w przód przez kilka kroków czasowych, „rozwijasz” sieć, a następnie w tył propagujesz w sekwencji danych wejściowych. Dlaczego po prostu nie aktualizowałbyś wag po każdym indywidualnym kroku w sekwencji? (odpowiednik użycia długości obcięcia 1, więc nie ma nic do rozwinięcia) To całkowicie eliminuje problem …
Mam podstawową wiedzę na temat działania RNN (a zwłaszcza jednostek LSTM). Mam obrazowe wyobrażenie o architekturze jednostki LSTM, czyli komórki i kilku bramek, które regulują przepływ wartości. Jednak najwyraźniej nie do końca zrozumiałem, w jaki sposób LSTM rozwiązuje problem „znikania i eksplodowania gradientów”, który pojawia się podczas treningu, z wykorzystaniem …
Które problemy z sekwencyjnym wejściem są najbardziej odpowiednie dla każdego? Czy wymiar wejściowy określa, które z nich jest lepsze? Czy problemy wymagające „dłuższej pamięci” lepiej pasują do RNN LSTM, podczas gdy problemy z cyklicznymi wzorcami wprowadzania danych (giełda, pogoda) są łatwiejsze do rozwiązania przez HMM? Wygląda na to, że nakładają …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.