Więc jaki jest haczyk z LSTM?


12

Poszerzam swoją wiedzę o pakiecie Keras i korzystam z niektórych dostępnych modeli. Mam problem z klasyfikacją binarną NLP, który próbuję rozwiązać i stosuję różne modele.

Po pracy z niektórymi wynikami i czytaniu coraz więcej o LSTM wydaje się, że to podejście jest znacznie lepsze niż cokolwiek innego, co próbowałem (w wielu zestawach danych). Wciąż myślę sobie: „dlaczego / kiedy nie miałbyś używać LSTM?”. Zastosowanie dodatkowych bramek, nieodłącznych od LSTM, ma dla mnie idealny sens po tym, jak niektóre modele cierpią na zanikanie gradientów.

Więc jaki jest haczyk z LSTM? Gdzie oni nie radzą sobie tak dobrze? Wiem, że nie ma czegoś takiego jak algorytm „jeden rozmiar dla wszystkich”, więc LSTM musi mieć wadę.


Wypróbuj GRU, są jak LSTM, ale wymagają mniej pamięci i trenują szybciej.
Vivek Khetan

Odpowiedzi:


11

Masz rację, że LSTM działają bardzo dobrze w przypadku niektórych problemów, ale niektóre z wad to:

  • Trenowanie LSTM trwa dłużej
  • LSTM wymagają więcej pamięci do trenowania
  • LSTM łatwo się nakłada
  • Rezygnacja jest znacznie trudniejsza do wdrożenia w LSTM
  • LSTM są wrażliwe na różne inicjalizacje losowej masy

Są to w porównaniu do prostszego modelu, na przykład sieci konwekcyjnej 1D.

Pierwsze trzy elementy są spowodowane tym, że LSTM mają więcej parametrów.


3
Zgadzam się i myślę, że nadmierne dopasowanie (inaczej słaba generalizacja) jest prawdopodobnie największym ryzykiem. Upewnij się, że masz dobrą strategię sprawdzania poprawności modelu.
tom
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.