O ile rozumiem, Q-learning i gradienty polityki (PG) to dwa główne podejścia stosowane do rozwiązywania problemów RL. Podczas gdy Q-learning ma na celu przewidzenie nagrody za pewne działanie podjęte w określonym stanie, gradienty polityki bezpośrednio przewidują samo działanie.
Jednak oba podejścia wydają mi się identyczne, tj. Przewidywanie maksymalnej nagrody za działanie (Q-learning) jest równoważne z przewidywaniem prawdopodobieństwa bezpośredniego podjęcia działania (PG). Czy jest różnica w sposobie propagowania straty?