Używałem theano do eksperymentowania z LSTM i zastanawiałem się, jakie metody optymalizacji (SGD, Adagrad, Adadelta, RMSprop, Adam itp.) Działają najlepiej dla LSTM? Czy są jakieś prace badawcze na ten temat?
Czy odpowiedź zależy również od rodzaju aplikacji, dla której używam LSTM? Jeśli tak, używam LSTM do klasyfikacji tekstu (gdzie tekst jest najpierw konwertowany na wektory słów).
Wreszcie, czy odpowiedzi byłyby takie same czy różne dla RNN? Wszelkie wskazówki do prac naukowych lub osobisty wgląd byłyby bardzo mile widziane!
LSTM wydają się być dość potężne i jestem zainteresowany dowiedzieć się więcej o tym, jak najlepiej z nich korzystać.