Dlaczego doświadczenie odtwarzania wymaga algorytmu niezgodnego z zasadami?

W artykule wprowadzającym DQN „ Playing Atari with Deep Reinforcement Learning ” wspomniano:

Pamiętaj, że ucząc się na podstawie powtórki z doświadczenia, musisz nauczyć się pozasądowych zasad (ponieważ nasze obecne parametry różnią się od parametrów używanych do generowania próbki), co motywuje wybór Q-learningu.

Nie do końca zrozumiałem, co to znaczy. Co się stanie, jeśli użyjemy SARSA i zapamiętamy akcję a'dla akcji, którą mamy podjąć s'w naszej pamięci, a następnie spróbujemy z niej pobrać próbki i zaktualizować Q, tak jak to zrobiliśmy w DQN? I czy metody krytyka aktorskiego (w szczególności A3C) mogą wykorzystywać odtwarzanie doświadczeń? Jeśli nie to dlaczego?

reinforcement-learning

— DarkZero
źródło

Metody zgodne z polityką, takie jak SARSA, oczekują, że działania w każdym stanie są wybierane na podstawie bieżącej polityki agenta, która zwykle wykorzystuje nagrody.

Dzięki temu polityka staje się lepsza, gdy aktualizujemy naszą politykę na podstawie ostatnich nagród. W szczególności tutaj aktualizują parametry NN, które przewidują wartość określonego stanu / akcji).

Ale jeśli zaktualizujemy naszą politykę na podstawie przechowywanych przejść, jak w przypadku odtwarzania doświadczeń, w rzeczywistości oceniamy działania na podstawie polityki, która nie jest już aktualna, ponieważ ewoluowała w czasie, dzięki czemu przestała być zgodna z polityką.

Wartości Q są oceniane na podstawie przyszłych nagród, które otrzymasz ze stanu zgodnego z bieżącą polityką agenta.

Jednak nie jest to już prawdą, ponieważ przestrzegasz teraz innych zasad. Dlatego używają wspólnej metody niezgodnej z polityką, która bada w oparciu o podejście epsilon-chciwe.

— Dante
źródło

Dziękuję, ale nadal nie rozumiem tego: jeśli użyję reguły aktualizacji TD (0), zapamiętam przejście (s, a, r, s')i wykorzystam to doświadczenie do odtworzenia; Załóżmy teraz, że moja obecna polityka mówi, że powinieneś wziąć a'na siebie s', a następnie zaznaczam, że Q(s, a)powinienem r + Q(s', a')zrobić gradient gradientowy. Myślę, że mam doświadczenie w odtwarzaniu zasad. Czy jest problem z procesem?

— DarkZero

Uważam, że problem polega na tym, że ponieważ używasz teraz innej polityki niż poprzednio i że działanie jest wybierane przy użyciu starej polityki, nie można tak naprawdę powiedzieć, że dotyczy ona polityki: aby ocenić poprawność wartości Q polityki powinieneś zrobić wiele działań z tym samym. Tutaj próbujesz ocenić bieżącą politykę za pomocą działania, którego ta polityka nie mogła wybrać.

— dante

Czy mogę więc powiedzieć, że robię to poza polisą? Jaki będzie tego wynik teoretycznie?

— DarkZero

Więc jeśli dobrze zrozumiem, należy albo zastosować metody niezgodne z polityką, jak Q-learning, zawsze należy wybrać maksymalne Q, aby być przyszłą oczekiwaną nagrodą. Nie ma znaczenia, jakie jest obecne działanie, ponieważ właściwość uczenia się Q jest taka, że jeśli zawsze wybierzesz maksymalne Q na przyszłość, Q będzie zbieżne z Q przy optymalnej polityce; Lub powinien szczerze postępować zgodnie z jedną polityką, wybierać każdą akcję, w tym przyszłe za pośrednictwem tej polityki, i przeprowadzać aktualizacje polityki. Czy to prawda?

— DarkZero

Do tej pory nie rozumiem, dlaczego metody zgodne z polityką są dobre. Metody pozapolityczne wydają się mieć więcej swobody i same mogą odkryć optymalną politykę. Czy zechciałbyś również odpowiedzieć na stats.stackexchange.com/questions/265354/… ? Dziękuję bardzo za wszystkie dyskusje.

— DarkZero

David Srebrny rozwiązuje to w tym wykładzie wideo na 46:10 http://videolectures.net/rldm2015_silver_reinforcement_learning/ : Doświadczenie powtórka wybiera z stosując zasadę panującą w tym czasie, i to jest jedna z jego zalet - pozwala funkcję Q uczyć się na podstawie poprzednich zasad, które przerywają korelację ostatnich stanów i polityk i zapobiegają „zablokowaniu się” sieci do określonego trybu zachowania. $a$ $s$

— dilaudid
źródło