Ostatnio zainteresowałem się LSTM i byłem zaskoczony, gdy dowiedziałem się, że wagi są dzielone w czasie.
Wiem, że jeśli dzielisz wagi w czasie, to twoje wejściowe sekwencje czasowe mogą mieć zmienną długość.
Dzielone ciężary pozwalają trenować o wiele mniej parametrów.
Z mojego zrozumienia, powód, dla którego warto przejść na LSTM vs. jakąś inną metodę uczenia się, jest taki, że wierzysz, że w twoich danych istnieje jakaś struktura czasowa / sekwencyjna / zależność, której chciałbyś się nauczyć. Jeśli poświęcisz „luksus” o zmiennej długości i zaakceptujesz długi czas obliczeń, czy RNN / LSTM bez wspólnych ciężarów (tj. Za każdym razem, gdy masz różne ciężary) będzie działał znacznie lepiej, czy jest coś, czego mi brakuje?