Poszerzam swoją wiedzę o pakiecie Keras i korzystam z niektórych dostępnych modeli. Mam problem z klasyfikacją binarną NLP, który próbuję rozwiązać i stosuję różne modele.
Po pracy z niektórymi wynikami i czytaniu coraz więcej o LSTM wydaje się, że to podejście jest znacznie lepsze niż cokolwiek innego, co próbowałem (w wielu zestawach danych). Wciąż myślę sobie: „dlaczego / kiedy nie miałbyś używać LSTM?”. Zastosowanie dodatkowych bramek, nieodłącznych od LSTM, ma dla mnie idealny sens po tym, jak niektóre modele cierpią na zanikanie gradientów.
Więc jaki jest haczyk z LSTM? Gdzie oni nie radzą sobie tak dobrze? Wiem, że nie ma czegoś takiego jak algorytm „jeden rozmiar dla wszystkich”, więc LSTM musi mieć wadę.