Epoka stochastycznego spadku gradientu jest definiowana jako pojedyncze przejście przez dane. Dla każdego minibatchu SGD rysuje się próbek, oblicza gradient i aktualizuje parametry. W ustawieniu epoki próbki są rysowane bez zamiany.
Ale to wydaje się niepotrzebne. Dlaczego nie narysować każdego minibatchu SGD, gdy losuje z całego zestawu danych przy każdej iteracji? W wielu epokach niewielkie odchylenia, których próbki są widoczne mniej lub bardziej często, wydają się nieistotne.