Czytałem książkę Reinforcement Learning: An Introduction autorstwa Richarda S. Sutton i Andrew G. Barto (kompletny szkic, 5 listopada 2017 r.).
Na stronie 271 przedstawiono pseudo-kod dla epizodycznej metody Monte-Carlo z zastosowaniem gradientowej polityki. Patrząc na ten pseudo-kod, nie rozumiem, dlaczego wydaje się, że stopa dyskontowa pojawia się 2 razy, raz w stanie aktualizacji i drugi raz w ramach zwrotu. [Zobacz rysunek poniżej]
Wydaje się, że powrót do kroków po kroku 1 jest jedynie skrótem zwrotu pierwszego kroku. Ponadto, jeśli spojrzysz tylko na jedną stronę powyżej w książce, znajdziesz równanie z tylko 1 stopą dyskontową (tą wewnątrz zwrotu).
Dlaczego zatem pseudo-kod wydaje się inny? Domyślam się, że coś źle rozumiem: