Próbuję zrozumieć słynny artykuł „Playing Atari with Deep Reinforcement Learning” ( pdf ). Nie jestem pewien, jaka jest różnica między epoką a epizodem . W algorytmie zewnętrzna pętla kończy się epizodami , natomiast na rysunku oś x jest oznaczona epoką . W kontekście uczenia się przez wzmacnianie nie jestem jasne, co oznacza epoka. Czy epoka jest zewnętrzną pętlą wokół pętli epizodu?