Jaki jest związek między teorią gier a uczeniem się przez wzmacnianie?


12

Interesuje mnie (Deep) Reinforcement Learning (RL) . Czy przed nurkowaniem w tym polu powinienem wziąć udział w kursie z teorii gier (GT) ?

W jaki sposób powiązane są GT i RL ?


2
Są one tak blisko spokrewnione jak młoty i bita śmietana. Prawdopodobnie możesz znaleźć problem, w którym możesz użyć obu, ale nie jest to powszechne.
Don Reba

4
@DonReba Nie według dwóch znanych badaczy z Reinforcement Learning: udacity.com/course/… Myślę, że Teoria Gry mówi ci, jaka jest optymalna polityka, podczas gdy RL mówi ci, jak agenci mogą nauczyć się optymalnej lub dobrej polityki.
Kiuhnm 21.04.16

3
@DonReba, być może pod względem zwykłych treści, których się w nich uczy. Cele tych dwóch pól nie są jednak tak różne. Nauka wzmocnienia może być postrzegana jako gra niedokładnych informacji, często dla jednego gracza. Lub jako gra dla dwóch graczy, w której drugi gracz, natura, przestrzega zestawu zasad, które chcesz odkryć.
przypuszcza

1
To było edukacyjne. :)
Don Reba

Odpowiedzi:


12

W Reinforcement Learning (RL) powszechne jest wyobrażanie sobie leżącego u podstaw procesu decyzyjnego Markowa (MDP). Następnie celem RL jest poznanie dobrej polityki dla MDP, która często jest tylko częściowo określona. MDP mogą mieć różne cele, takie jak łączna, średnia lub zdyskontowana nagroda, przy czym nagroda zdyskontowana jest najczęstszym założeniem RL. Istnieją dobrze zbadane rozszerzenia MDP do ustawień dla dwóch graczy (tj. Gry); patrz np.

Filar, Jerzy i Koos Vrieze. Konkurencyjne procesy decyzyjne Markowa . Springer Science & Business Media, 2012.

Istnieje podstawowa teoria podzielona przez MDP i ich rozszerzenia na gry dwuosobowe (o sumie zerowej), w tym np. Twierdzenie Banacha o stałym punkcie, Iteracja wartości, Optymalność Bellmana, Iteracja polityki / Ulepszenie strategii itp. Jednakże, chociaż istnieją te bliskie powiązania między MDP (a tym samym RL) a tymi konkretnymi typami gier:

  • możesz dowiedzieć się o RL (i MDP) bezpośrednio, bez GT jako warunku;
  • tak czy inaczej, nie dowiedziałbyś się o tych rzeczach na większości kursów GT (które normalnie koncentrowałyby się na np. strategicznych, rozbudowanych i powtarzanych grach, ale nie państwowych, nieskończonych grach, które generalizują MDP).


0

RL: Pojedynczy agent jest przeszkolony do rozwiązania problemu decyzyjnego Markowa (MDPS). GT: Dwóch agentów jest przeszkolonych do rozwiązywania gier. Nauka stochastycznych gier może być wykorzystana do uczenia się przez wielu agentów (MARL).

Jeśli interesuje Cię aplikacja RL dla jednego agenta w głębokim uczeniu się, nie musisz iść na kurs GT. W przypadku dwóch lub więcej agentów może być konieczne poznanie technik teoretycznych.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.