W artykule wprowadzającym DQN „ Playing Atari with Deep Reinforcement Learning ” wspomniano:
Pamiętaj, że ucząc się na podstawie powtórki z doświadczenia, musisz nauczyć się pozasądowych zasad (ponieważ nasze obecne parametry różnią się od parametrów używanych do generowania próbki), co motywuje wybór Q-learningu.
Nie do końca zrozumiałem, co to znaczy. Co się stanie, jeśli użyjemy SARSA i zapamiętamy akcję a'
dla akcji, którą mamy podjąć s'
w naszej pamięci, a następnie spróbujemy z niej pobrać próbki i zaktualizować Q, tak jak to zrobiliśmy w DQN? I czy metody krytyka aktorskiego (w szczególności A3C) mogą wykorzystywać odtwarzanie doświadczeń? Jeśli nie to dlaczego?
(s, a, r, s')
i wykorzystam to doświadczenie do odtworzenia; Załóżmy teraz, że moja obecna polityka mówi, że powinieneś wziąća'
na siebies'
, a następnie zaznaczam, żeQ(s, a)
powinienemr + Q(s', a')
zrobić gradient gradientowy. Myślę, że mam doświadczenie w odtwarzaniu zasad. Czy jest problem z procesem?