Pytania otagowane jako policy-gradients

1
Jaki jest związek między Q-learningiem a metodami gradientów polityki?
O ile rozumiem, Q-learning i gradienty polityki (PG) to dwa główne podejścia stosowane do rozwiązywania problemów RL. Podczas gdy Q-learning ma na celu przewidzenie nagrody za pewne działanie podjęte w określonym stanie, gradienty polityki bezpośrednio przewidują samo działanie. Jednak oba podejścia wydają mi się identyczne, tj. Przewidywanie maksymalnej nagrody za …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.