Pytania otagowane jako rl-an-introduction

3
Dlaczego stopa dyskontowa w algorytmie REINFORCE pojawia się dwukrotnie?
Czytałem książkę Reinforcement Learning: An Introduction autorstwa Richarda S. Sutton i Andrew G. Barto (kompletny szkic, 5 listopada 2017 r.). Na stronie 271 przedstawiono pseudo-kod dla epizodycznej metody Monte-Carlo z zastosowaniem gradientowej polityki. Patrząc na ten pseudo-kod, nie rozumiem, dlaczego wydaje się, że stopa dyskontowa pojawia się 2 razy, raz …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.