Przeprowadzam eksperymenty na zestawie walidacyjnym EMNIST przy użyciu sieci z RMSProp, Adamem i SGD. Osiągam 87% dokładności dzięki SGD (współczynnik uczenia się 0,1) i porzucaniu (0,1 porzuceniu prob), a także regularyzacji L2 (kara 1e-05). Podczas testowania tej samej dokładnej konfiguracji z RMSProp i Adamem, a także początkowej szybkości uczenia się wynoszącej 0,001, osiągam dokładność 85% i znacznie mniej płynną krzywą treningu. Nie wiem jak wytłumaczyć to zachowanie. Co może być przyczyną braku gładkości krzywej treningowej oraz osiągniętej niższej dokładności i wyższych poziomów błędów?