Modeluję 15000 tweetów do prognozowania nastrojów za pomocą jednowarstwowej LSTM ze 128 ukrytymi jednostkami za pomocą reprezentacji podobnej do word2vec o 80 wymiarach. Dostaję dokładność zniżania (38% losowo = 20%) po 1 epoce. Więcej treningów powoduje, że dokładność walidacji zaczyna spadać, gdy dokładność treningu zaczyna się wspinać - wyraźny znak przeregulowania.
Dlatego zastanawiam się nad sposobami regularyzacji. Wolałbym nie zmniejszać liczby ukrytych jednostek (128 wydaje się już trochę niski). Obecnie używam rezygnacji z prawdopodobieństwem 50%, ale być może można to zwiększyć. Optymalizatorem jest Adam z domyślnymi parametrami dla Keras ( http://keras.io/optimizers/#adam ).
Jakie są skuteczne sposoby ograniczenia nadmiernego dopasowania tego modelu w moim zbiorze danych?