Długotrwała pamięć krótkoterminowa (LSTM) to architektura sieci neuronowej, która zawiera powtarzające się bloki NN, które mogą zapamiętywać wartość przez dowolny czas.
LSTM został opracowany specjalnie w celu uniknięcia problemu zanikania gradientu. Ma to zrobić za pomocą karuzeli Constant Error (CEC), która na poniższym schemacie ( Greff i in. ) Odpowiada pętli wokół komórki . (źródło: deeplearning4j.org ) Rozumiem, że ta część może być postrzegana jako rodzaj funkcji tożsamości, więc pochodna jest …
Przez jakiś czas studiowałem LSTM. Rozumiem na wysokim poziomie, jak wszystko działa. Jednak zamierzając je zaimplementować za pomocą Tensorflow, zauważyłem, że BasicLSTMCell wymaga szeregunum_units parametrów (tj. ) Parametrów. Z tego bardzo dokładnego wyjaśnienia LSTM wynika, że jedna jednostka LSTM jest jedną z poniższych który w rzeczywistości jest jednostką GRU. Zakładam, …
Moja strata treningowa spada, a potem znowu rośnie. To jest bardzo dziwne. Strata weryfikacji krzyżowej śledzi utratę treningu. Co się dzieje? Mam dwa skumulowane LSTMS w następujący sposób (na Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Trenuję to przez 100 epok: …
Jakie są zalety, dlaczego warto korzystać z wielu LSTM, ułożonych jeden obok drugiego, w sieci głębokiej? Używam LSTM do reprezentowania sekwencji danych wejściowych jako pojedynczego wejścia. Więc kiedy mam tę pojedynczą reprezentację - dlaczego miałbym ją powtórzyć? Pytam o to, ponieważ widziałem to w programie generowania języka naturalnego.
Mechanizmy uwagi były wykorzystywane w różnych artykułach Deep Learning w ciągu ostatnich kilku lat. Ilya Sutskever, kierownik badań w Open AI, entuzjastycznie je chwali: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello z Purdue University stwierdził, że RNN i LSTM należy porzucić na rzecz sieci neuronowych opartych wyłącznie na uwadze: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Wydaje się to przesadą, …
Próbuję użyć przykładu opisanego w dokumentacji Keras o nazwie „Stacked LSTM do klasyfikacji sekwencji” (patrz kod poniżej) i nie mogę znaleźć input_shapeparametru w kontekście moich danych. Mam jako dane wejściowe macierz sekwencji 25 możliwych znaków zakodowanych w liczbach całkowitych do sekwencji wypełnionej o maksymalnej długości 31. W rezultacie moje x_trainma …
Próbuję zrozumieć różne architektury RNN (Recurrent Neural Network), które mają być zastosowane do danych szeregów czasowych, i zaczynam się mylić z różnymi nazwami, które są często używane przy opisywaniu RNN. Czy struktura Długiej pamięci krótkoterminowej (LSTM) i Gated Recurrent Unit (GRU) jest zasadniczo RNN z pętlą sprzężenia zwrotnego?
Używałem theano do eksperymentowania z LSTM i zastanawiałem się, jakie metody optymalizacji (SGD, Adagrad, Adadelta, RMSprop, Adam itp.) Działają najlepiej dla LSTM? Czy są jakieś prace badawcze na ten temat? Czy odpowiedź zależy również od rodzaju aplikacji, dla której używam LSTM? Jeśli tak, używam LSTM do klasyfikacji tekstu (gdzie tekst …
Ostatnio zainteresowałem się LSTM i byłem zaskoczony, gdy dowiedziałem się, że wagi są dzielone w czasie. Wiem, że jeśli dzielisz wagi w czasie, to twoje wejściowe sekwencje czasowe mogą mieć zmienną długość. Dzielone ciężary pozwalają trenować o wiele mniej parametrów. Z mojego zrozumienia, powód, dla którego warto przejść na LSTM …
Mam bardzo prosty problem, ale nie mogę znaleźć odpowiedniego narzędzia do jego rozwiązania. Mam sekwencję wektorów o tej samej długości. Teraz chciałbym trenować LSTM RNN na próbce pociągu tych sekwencji, a następnie sprawić, by przewidział nową sekwencję wektorów o długości na podstawie kilku wektorów startowych .nnn Nie mogę znaleźć prostej …
Przeglądam następujący blog na sieci neuronowej LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ Autor przekształca wektor wejściowy X jako [próbki, przedziały czasowe, cechy] dla różnych konfiguracji LSTM. Autor pisze Rzeczywiście, sekwencje liter są krokami czasowymi jednej cechy, a nie krokiem czasu oddzielnych cech. Daliśmy sieci większy kontekst, ale nie więcej sekwencji, niż się spodziewano Co …
Próbuję zrozumieć ogólne zastosowanie RNN do znakowania sekwencji za pomocą (między innymi) artykułu Gravesa z 2005 r. Na temat klasyfikacji fonemów. Podsumowując problem: Mamy duży zestaw szkoleniowy składający się z (wejściowych) plików audio z pojedynczych zdań i (wyjściowych) opatrzonych znakiem eksperckim czasów rozpoczęcia, czasów zatrzymania i etykiet dla poszczególnych fonemów …
Zastanawiam się nad użyciem wersji LSTM ( długoterminowej pamięci krótkotrwałej ) rekurencyjnej sieci neuronowej (RNN) do modelowania danych szeregów czasowych. Wraz ze wzrostem długości sekwencji danych wzrasta złożoność sieci. Jestem zatem ciekawy, jaką długość sekwencji można by modelować z dobrą dokładnością? Chciałbym zastosować stosunkowo prostą wersję LSTM bez żadnych trudnych …
Modeluję 15000 tweetów do prognozowania nastrojów za pomocą jednowarstwowej LSTM ze 128 ukrytymi jednostkami za pomocą reprezentacji podobnej do word2vec o 80 wymiarach. Dostaję dokładność zniżania (38% losowo = 20%) po 1 epoce. Więcej treningów powoduje, że dokładność walidacji zaczyna spadać, gdy dokładność treningu zaczyna się wspinać - wyraźny znak …
Używam sieci lstm i feed-forward do klasyfikowania tekstu. Przekształcam tekst w pojedyncze gorące wektory i wprowadzam każdy do lstm, dzięki czemu mogę podsumować jako pojedynczą reprezentację. Następnie przesyłam go do innej sieci. Ale jak mam trenować lstm? Chcę po prostu sklasyfikować tekst - czy powinienem go karmić bez szkolenia? Chcę …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.