Sztuczna inteligencja policy-gradients

Pytania otagowane jako policy-gradients

Jaki jest związek między Q-learningiem a metodami gradientów polityki?

O ile rozumiem, Q-learning i gradienty polityki (PG) to dwa główne podejścia stosowane do rozwiązywania problemów RL. Podczas gdy Q-learning ma na celu przewidzenie nagrody za pewne działanie podjęte w określonym stanie, gradienty polityki bezpośrednio przewidują samo działanie. Jednak oba podejścia wydają mi się identyczne, tj. Przewidywanie maksymalnej nagrody za …

21 reinforcement-learning q-learning policy-gradients comparison