Czy gra DeepMind DQN Atari uczyła się jednocześnie?


9

DeepMind twierdzi, że ich głęboka sieć Q (DQN) była w stanie stale dostosowywać swoje zachowanie podczas nauki gry w 49 gier Atari.

Po nauczeniu się wszystkich gier z tą samą siecią neuronową agent był w stanie grać wszystkie jednocześnie na „nadludzkich” poziomach (ilekroć był losowo prezentowany w jednej z gier), czy też może być dobry tylko w jednej grze na raz, ponieważ zmiana wymagało ponownego uczenia się?


„Po nauczeniu się wszystkich gier z tą samą siecią neuronową”. Czy to oznacza tę samą architekturę NN LUB tę samą architekturę i pojedynczy zestaw wag?
Ankur,

@Ankur tak naprawdę nie jestem pewien - to moje (ograniczone) zrozumienie, że użyli tej samej architektury i nie zresetowali wag między grami.
Dion,

Odpowiedzi:


2

Przełączanie wymagało ponownego uczenia się.

Pamiętaj również, że :

Używamy tej samej architektury sieci, algorytmu uczenia się i ustawień hiperparametrów we wszystkich siedmiu grach, co pokazuje, że nasze podejście jest wystarczająco solidne, aby pracować na różnych grach bez uwzględniania informacji specyficznych dla gry. Podczas gdy ocenialiśmy naszych agentów w rzeczywistych i niezmodyfikowanych grach, wprowadziliśmy jedną zmianę w strukturze nagród w grach tylko podczas treningu.

i

sieć przewyższyła wszystkie poprzednie algorytmy RL w sześciu z siedmiu gier, które próbowaliśmy, i przewyższyła eksperta ludzkiego gracza w trzech z nich.


1

Przełączanie wymaga ponownego uczenia się, sieć nie miała jednego zestawu wag, które pozwoliłyby jej dobrze grać we wszystkie gry. Wynika to z katastrofalnego problemu zapominania.

Jednak ostatnie prace zostały wykonane w celu rozwiązania tego problemu:

„Przezwyciężanie katastrofalnego zapominania w sieciach neuronowych”, 2016

Papier: https://arxiv.org/pdf/1612.00796v1.pdf

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.