Sztuczna inteligencja rl-an-introduction

Pytania otagowane jako rl-an-introduction

Dlaczego stopa dyskontowa w algorytmie REINFORCE pojawia się dwukrotnie?

Czytałem książkę Reinforcement Learning: An Introduction autorstwa Richarda S. Sutton i Andrew G. Barto (kompletny szkic, 5 listopada 2017 r.). Na stronie 271 przedstawiono pseudo-kod dla epizodycznej metody Monte-Carlo z zastosowaniem gradientowej polityki. Patrząc na ten pseudo-kod, nie rozumiem, dlaczego wydaje się, że stopa dyskontowa pojawia się 2 razy, raz …

11 reinforcement-learning algorithm rl-an-introduction reinforce