Jaka jest różnica między epizodem a epoką w głębokim uczeniu się Q?

Próbuję zrozumieć słynny artykuł „Playing Atari with Deep Reinforcement Learning” ( pdf ). Nie jestem pewien, jaka jest różnica między epoką a epizodem . W algorytmie zewnętrzna pętla kończy się epizodami , natomiast na rysunku oś x jest oznaczona epoką . W kontekście uczenia się przez wzmacnianie nie jestem jasne, co oznacza epoka. Czy epoka jest zewnętrzną pętlą wokół pętli epizodu? $1$ $2$

— OGŁOSZENIE
źródło

Więc ... ile odcinków tworzy epokę?

— Lewen

jeden odcinek = jeden ciąg stanów, akcji i nagród, który kończy się stanem końcowym. Na przykład, rozegranie całej gry można uznać za jeden odcinek, a stan terminalny zostanie osiągnięty, gdy jeden gracz przegra / wygra / zremisuje. Czasem można zdefiniować jeden odcinek jako kilka gier ( przykład : „każdy odcinek to kilkadziesiąt gier, ponieważ liczba gier wzrasta do 21 dla każdego gracza”).
jedna epoka = jedno przejście do przodu i jedno przejście do tyłu wszystkich przykładów szkolenia, w terminologii sieci neuronowej.

W artykule, o którym wspominasz, wydaje się, że są bardziej elastyczni pod względem znaczenia epoki, ponieważ po prostu definiują jedną epokę jako pewną liczbę aktualizacji wagi. Można zatem postrzegać jedną epokę jako zewnętrzną pętlę wokół pętli epizodu, jak wspomniano w pytaniu.

— Franck Dernoncourt
źródło