1
Jaki jest związek między Q-learningiem a metodami gradientów polityki?
O ile rozumiem, Q-learning i gradienty polityki (PG) to dwa główne podejścia stosowane do rozwiązywania problemów RL. Podczas gdy Q-learning ma na celu przewidzenie nagrody za pewne działanie podjęte w określonym stanie, gradienty polityki bezpośrednio przewidują samo działanie. Jednak oba podejścia wydają mi się identyczne, tj. Przewidywanie maksymalnej nagrody za …