2
Kiedy metody Monte Carlo są lepsze od metod różnic czasowych?
Ostatnio robiłem dużo badań na temat nauki o wzmocnieniu. Śledziłem Reinforcement Learning Sutton & Barto : Wprowadzenie do większości tego. Wiem, czym są procesy decyzyjne Markowa i jak do ich rozwiązania można wykorzystać uczenie się w zakresie programowania dynamicznego (DP), Monte Carlo i różnic czasowych (DP). Problem mam jest to, …