P1: Czy istnieją ogólnie przyjęte lub powszechnie akceptowane metody radzenia sobie ze środowiskiem niestacjonarnym w uczeniu się przez zbrojenie?
Większość podstawowych agentów RL działa w trybie online, a nauka online zazwyczaj rozwiązuje problemy niestacjonarne. Ponadto reguły aktualizacji dla estymatorów wartości stanu i wartości akcji w problemach sterowania są zwykle zapisywane dla niestacjonarnych celów, ponieważ cele już się zmieniają wraz z poprawą zasad. Nie jest to nic skomplikowanego, po prostu zastosowanie współczynnika uczenia sięα w aktualizacjach przy szacowaniu wartości, skutecznie tocząca się średnia geometryczna, w przeciwieństwie do uśredniania dla całej historii w nieważony sposób.
Jednak dotyczy to długoterminowej niestacjonarności, takiej jak problem ze zmianą epizodów lub nawet w dłuższej skali czasowej. Twój opis wygląda bardziej tak, jakbyś chciał zmienić strukturę nagród na podstawie działań podjętych przez agenta w krótkim czasie. Ta dynamiczna reakcja na działania jest lepiej sformułowana jako inny, bardziej złożony MDP, a nie jako „niestacjonarność” w prostszym MDP.
Agent nie może nauczyć się zmian w środowisku, których nie próbkował jeszcze, więc zmiana struktury nagrody nie uniemożliwi powrotu agenta do wcześniej odwiedzonych stanów. O ile nie użyjesz czegoś takiego jak RNN w agencie, agent nie będzie miał „pamięci” tego, co wydarzyło się wcześniej w odcinku, innej niż to, co jest reprezentowane w bieżącym stanie (prawdopodobnie użycie RNN powoduje, że ukryta warstwa RNN staje się częścią państwowe). W wielu odcinkach, jeśli użyjesz tabelarycznego agenta Q-learningu, wówczas agent po prostu dowie się, że niektóre stany mają niską wartość, nie będzie w stanie dowiedzieć się, że druga lub trzecia wizyta w tym stanie powoduje ten efekt, ponieważ nie ma sposób na przedstawienie tej wiedzy. Nie będzie w stanie dostosować się do zmiany wystarczająco szybko, aby uczyć się online i w połowie odcinka.
P2: W moim świecie gridu funkcja nagrody zmienia się, gdy odwiedzany jest stan. Chcę tylko, aby mój agent się nauczył: „Nie wracaj, chyba że naprawdę potrzebujesz”, ale to sprawia, że środowisko nie jest stacjonarne.
Jeśli to wszystko, czego potrzebujesz, aby nauczyć się agenta, być może może to zachęcić odpowiednia struktura nagród. Zanim to zrobisz, musisz zrozumieć, co oznacza „naprawdę” i jak mocno musi to być logicznie. Możesz być w porządku, po prostu nakładając karę za odwiedzenie dowolnego miejsca, które agent już lub niedawno odwiedził.
Czy / Czy ta bardzo prosta reguła powinna zostać włączona do modelu MDP i jak?
Tak, należy dodać informacje o odwiedzonych lokalizacjach do stanu. To natychmiast uczyni model państwa bardziej złożonym niż prosty świat siatki, zwiększając wymiar problemu, ale jest to nieuniknione. Większość rzeczywistych problemów bardzo szybko przerasta przykłady zabawek podane do nauczania pojęć RL.
Jedną z możliwości jest ujęcie problemu jako częściowo obserwowalny proces decyzyjny Markowa (POMDP) . W takim przypadku stan „prawdziwy” nadal obejmowałby całą niezbędną historię w celu obliczenia nagród (a ponieważ jest to problem z zabawką na komputerze, nadal musiałbyś go jakoś reprezentować), ale agent może próbować uczyć się z ograniczonego zakresu znajomość stanu, cokolwiek pozwolisz mu obserwować. Zasadniczo jest to znacznie trudniejsze podejście niż rozszerzenie reprezentacji państwa i nie poleciłbym go tutaj. Jeśli jednak uważasz ten pomysł za interesujący, możesz wykorzystać swój problem do zbadania POMDP. Oto najnowszy artykuł (z zespołu Deep Mind firmy Google, 2015), który analizuje dwa algorytmy RL w połączeniu z RNN w celu rozwiązania POMDP.
P3: Przyglądam się Q-learningowi z powtórką z doświadczenia jako rozwiązaniem do radzenia sobie w środowiskach niestacjonarnych, ponieważ dekoreluje kolejne aktualizacje. Czy jest to właściwe zastosowanie tej metody, czy raczej chodzi o zwiększenie wydajności uczenia się?
Odtwarzanie doświadczeń nie pomoże w niestacjonarnych środowiskach. W rzeczywistości może to pogorszyć ich wydajność. Jednak, jak już wspomniano, twój problem nie dotyczy tak naprawdę niestacjonarnego środowiska, ale obsługi bardziej złożonej dynamiki stanu.
Co może trzeba zrobić, to patrzeć w funkcji zbliżenia, jeśli liczba członkowskich wzrasta do dużej liczby mało. Na przykład, jeśli chcesz obsługiwać dowolną back-tracking i mają skomplikowaną zasadę nagradzania modyfikujące że każdy utworów odwiedzanych lokalizacji, wówczas państwo może przejść z jednego numeru lokalizacji na mapie pokazano odwiedzanych miejscach. Na przykład może pochodzić64 stwierdza dla 8 × 8 świat siatki do 2)64mapa stanu pokazująca odwiedzone kwadraty. Jest to o wiele za dużo, aby można było je prześledzić w tabeli wartości, dlatego zwykle do oszacowania wartości stanów używasz sieci neuronowej (lub splotowej sieci neuronowej).
W przypadku estymatora funkcji odtwarzanie doświadczenia jest bardzo przydatne, ponieważ bez niego proces uczenia się może być niestabilny. Najnowsze podejście DQN do grania w gry Atari wykorzystuje z tego powodu powtórkę doświadczenia.