Kluczowa część cytowanego tekstu to:
Aby wykonać powtórkę doświadczenia, przechowujemy doświadczenia agenta et=(st,at,rt,st+1)
Oznacza to, że zamiast uruchamiać Q-learning na parach stan / akcja pojawiających się podczas symulacji lub rzeczywistego doświadczenia, system przechowuje odkryte dane dla [stan, akcja, nagroda, następny_ stan] - zwykle w dużej tabeli. Uwaga: nie przechowuje powiązanych wartości - są to nieprzetworzone dane, które później zostaną wykorzystane do obliczeń wartości akcji.
Faza uczenia się jest zatem logicznie oddzielona od zdobywania doświadczenia i oparta na pobieraniu losowych próbek z tej tabeli. Nadal chcesz przeplatać te dwa procesy - działanie i uczenie się - ponieważ poprawa polityki doprowadzi do różnych zachowań, które powinny zbadać działania bliższe optymalnym, i chcesz się z nich uczyć. Możesz jednak podzielić to według własnych upodobań - np. Zrobić jeden krok, uczyć się na podstawie trzech losowych wcześniejszych kroków itp. Cele Q-Learning podczas korzystania z powtórki doświadczenia używają tych samych celów co wersja online, więc nie ma na to nowej formuły. Podany wzór straty jest również tym, którego użyłbyś dla DQN bez powtórnego doświadczenia. Różnica polega tylko na tym, które s, a, r, s, a „karmisz”.
W DQN zespół DeepMind utrzymywał również dwie sieci i przełączał, która z nich się uczyła, a która zasilała bieżące szacunki wartości akcji jako „bootstrapy”. Pomogło to w utrzymaniu stabilności algorytmu przy użyciu aproksymatora funkcji nieliniowej. To właśnie oznacza pasek w - oznacza alternatywnązamrożonąwersję odważników.θ ¯i
Zalety powtórzenia doświadczenia:
Bardziej wydajne korzystanie z wcześniejszych doświadczeń poprzez wielokrotne uczenie się z nimi. Jest to kluczowe, gdy zdobywanie rzeczywistego doświadczenia jest kosztowne, możesz w pełni z niego korzystać. Aktualizacje Q-learningu są przyrostowe i nie zbiegają się szybko, więc wiele przejść z tymi samymi danymi jest korzystne, szczególnie gdy występuje niewielka wariancja w natychmiastowych wynikach (nagroda, następny stan) przy tym samym stanie, parze akcji.
Lepsze zachowanie konwergencji podczas szkolenia aproksymatora funkcji. Częściowo dzieje się tak, ponieważ dane są bardziej podobne dzieje się danych identyfikacyjnych przyjętych w większości nadzorowanych dowodów konwergencji uczenia się.
Wada powtórki doświadczenia:
- Trudniej jest stosować wieloetapowe algorytmy uczenia się, takie jak Q ( ), które można dostroić w celu uzyskania lepszych krzywych uczenia się poprzez zrównoważenie odchylenia (z powodu ładowania początkowego) i wariancji (z powodu opóźnień i losowości wyników długoterminowych) . Wieloetapowy DQN z powtórzeniem doświadczenia DQN jest jednym z rozszerzeń zbadanych w artykuleλ Rainbow: Łączenie ulepszeń w uczeniu się o głębokim wzmocnieniu .
Podejście zastosowane w DQN zostało krótko zarysowane przez Davida Silvera w części tego wykładu wideo (około 01:17:00, ale warto zobaczyć sekcje przed nim). Jeśli masz czas, polecam obejrzenie całej serii, która jest kursem dla absolwentów na temat nauki wzmacniającej.