Pytania otagowane jako dqn

Dlaczego DQN wymaga dwóch różnych sieci?

Przechodziłem przez tę implementację DQN i widzę, że na linii 124 i 125 zainicjowano dwie różne sieci Q. Z mojego zrozumienia, myślę, że jedna sieć przewiduje odpowiednie działanie, a druga sieć przewiduje docelowe wartości Q dla znalezienia błędu Bellmana. Dlaczego nie możemy stworzyć jednej sieci, która po prostu przewiduje wartość …

12 reinforcement-learning q-learning dqn

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.

Licensed under cc by-sa 3.0 with attribution required.