Pytania otagowane jako q-learning

1
Jaki jest związek między Q-learningiem a metodami gradientów polityki?
O ile rozumiem, Q-learning i gradienty polityki (PG) to dwa główne podejścia stosowane do rozwiązywania problemów RL. Podczas gdy Q-learning ma na celu przewidzenie nagrody za pewne działanie podjęte w określonym stanie, gradienty polityki bezpośrednio przewidują samo działanie. Jednak oba podejścia wydają mi się identyczne, tj. Przewidywanie maksymalnej nagrody za …

1
Dlaczego DQN wymaga dwóch różnych sieci?
Przechodziłem przez tę implementację DQN i widzę, że na linii 124 i 125 zainicjowano dwie różne sieci Q. Z mojego zrozumienia, myślę, że jedna sieć przewiduje odpowiednie działanie, a druga sieć przewiduje docelowe wartości Q dla znalezienia błędu Bellmana. Dlaczego nie możemy stworzyć jednej sieci, która po prostu przewiduje wartość …

2
Dlaczego Q-learning nie jest zbieżny podczas korzystania z aproksymacji funkcji?
Tabelaryczny algorytm uczenia Q gwarantuje znalezienie optymalnego QQQ funkcjonować, Q∗Q∗Q^*, pod warunkiem spełnienia następujących warunków (warunki Robbins-Monro ) dotyczących wskaźnika uczenia się ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty gdzie αt(s,a)αt(s,a)\alpha_t(s, a) oznacza współczynnik uczenia się używany podczas aktualizacji QQQ wartość związana ze stanem sss i akcja …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.