1
Dlaczego DQN wymaga dwóch różnych sieci?
Przechodziłem przez tę implementację DQN i widzę, że na linii 124 i 125 zainicjowano dwie różne sieci Q. Z mojego zrozumienia, myślę, że jedna sieć przewiduje odpowiednie działanie, a druga sieć przewiduje docelowe wartości Q dla znalezienia błędu Bellmana. Dlaczego nie możemy stworzyć jednej sieci, która po prostu przewiduje wartość …