Dlaczego zawsze istnieje co najmniej jedna polisa, która jest lepsza lub równa od wszystkich innych polis?


15

Uczenie się przez zbrojenie: wprowadzenie. Druga edycja, w toku ., Richard S. Sutton i Andrew G. Barto (c) 2012, s. 67–68.

Rozwiązanie zadania polegającego na uczeniu się o wzmocnieniu oznacza z grubsza znalezienie polityki, która na dłuższą metę osiągnie wiele nagród. W przypadku skończonych MDP możemy precyzyjnie zdefiniować optymalną politykę w następujący sposób. Funkcje wartości definiują częściowe uporządkowanie nad politykami. Polityka określa się lepiej niż lub równy polityki„jeśli jego powrót spodziewany jest większa lub równa , dla wszystkich państw. Innymi słowy, jeśli i tylko jeśli , dla wszystkich . Zawsze istnieje co najmniej jedna polisa, która jest lepsza lub równa wszystkim innym polisom. To jest optymalna polityka.πππππvπ(s)vπ(s)sS

Dlaczego zawsze istnieje co najmniej jedna polisa, która jest lepsza lub równa od wszystkich innych polis?


Bardzo szczegółowy dowód (wykorzystujący twierdzenie Banacha o punkcie stałym) pojawia się w rozdziale 6.2 „Procesów decyzyjnych Markowa” Putermana.
Toghs,

Odpowiedzi:


3

Tuż po cytowanym fragmencie ten sam akapit faktycznie mówi ci, na czym polega ta polityka: to ta, która podejmuje najlepsze działania w każdym stanie. W MDP działania, które podejmujemy w jednym stanie, nie wpływają na nagrody za działania podejmowane w innych, więc możemy po prostu zmaksymalizować polisę według stanu.


Czy ta odpowiedź nie jest całkowicie błędna? Jak można powiedzieć, że optymalizacja stanu polityki według stanu prowadzi do optymalnej polityki. Jeśli optymalizuję ponad stan i zajmuje mi S t + 1, a następnie optymalizacja w S t + 1 prowadzi do funkcji wartości optymalnej V t + 1, ale istnieje inna zasada, w której S t prowadzi nieoptymalnie do S l i optymalnej funkcja wartości S l jest wyższa niż V t + 1 . Jak można wykluczyć taką pobieżną analizę?StSt+1St+1Vt+1StSlSlVt+1
MiloMinderbinder

@MiloMinderbinder Jeśli optymalną polityką w jest wybranie S t + 1 , wówczas wartość S t + 1 jest wyższa niż wartość S l . StSt+1St+1Sl
Don Reba

Mój błąd. Poprawiona literówka: „Czy ta odpowiedź nie jest całkowicie błędna? Jak możesz powiedzieć, że optymalizacja stanu polityki według stanu prowadzi do optymalnej polityki? Jeśli zoptymalizuję ponad stan i zabierze mnie do S t + 1, a następnie optymalizacja przy S t + 1 prowadzi do funkcji wartości optymalnej V t + 2 z S t + 2, ale istnieje inna polityka, w której S t chociaż prowadzi suboptymalnie do S l + 1, a zatem funkcja wartości S t + 1StSt+1St+1Vt+2St+2StSl+1St+1jest wyższa niż ale funkcja wartości S t + 2 jest wyższa w tej polityce niż w polityce znalezionej przez optymalizację stanu według stanu. Jak to się nazywa? Vl+1St+2
MiloMinderbinder,

Myślę, że definicja zapobiegnie temu, zanim to się wydarzy, ponieważ powinna ona uwzględniać również przyszłe zyski. V
Flying_Banana

Pytanie brzmiałoby zatem: dlaczego istnieje? Nie można obejść twierdzenia Banacha o stałym punkcie :-)q
Fabian Werner

10

Istnienie optymalnej polityki nie jest oczywiste. Aby zobaczyć dlaczego, należy zauważyć, że funkcja wartości zapewnia tylko częściowe uporządkowanie przestrzeni polityk. To znaczy:

ππvπ(s)vπ(s),sS

Ponieważ jest to tylko częściowe uporządkowanie, mogą wystąpić przypadki, w których dwie polityki i π 2 nie są porównywalne. Innymi słowy, istnieją podzbiory przestrzeni stanu, S 1 i S 2, takie, że:π1π2S1S2

vπ(s)vπ(s),sS1

vπ(s)vπ(s),sS2

W tym przypadku nie możemy powiedzieć, że jedna polisa jest lepsza od drugiej. Ale jeśli mamy do czynienia ze skończonymi MDP z funkcjami o ograniczonej wartości, taki scenariusz nigdy nie występuje. Istnieje dokładnie jedna optymalna funkcja wartości, chociaż może istnieć wiele optymalnych zasad.

Aby to udowodnić, musisz zrozumieć twierdzenie Banacha o stałym punkcie. Aby uzyskać szczegółową analizę, patrz .


8

Oprawa

Rozważamy w kontekście:

  • Dyskretne działania
  • Stany dyskretne
  • Ograniczone nagrody
  • Polityka stacjonarna
  • Nieskończony horyzont

V = max π V π ( s ) , s S V = V π

(1)πargmaxπVπ(s),sS
(2)V=maxπVπ(s),sS
(3)V=Vπ

Pytanie

Jak udowodnić, że istnieje co najmniej jeden który spełnia (1) jednocześnie dla wszystkich ? s SπsS

Zarys dowodu

  1. Skonstruuj równanie optymalne, które będzie stosowane jako tymczasowa zastępcza definicja funkcji wartości optymalnej, co udowodnimy w kroku 2, że jest ona równoważna definicji za pomocą równania (2).

    (4)V(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
  2. Wyznacz równoważność zdefiniowania funkcji wartości optymalnej za pomocą równania (4) i równania (2).

    (Zauważ, że w rzeczywistości potrzebujemy tylko kierunku konieczności w dowodzie, ponieważ wystarczalność jest oczywista, ponieważ skonstruowaliśmy równanie (4) z równania (2).)

  3. Udowodnij, że istnieje unikalne rozwiązanie równania (4).

  4. W kroku 2 wiemy, że rozwiązanie uzyskane w kroku 3 jest również rozwiązaniem dla równania (2), więc jest to funkcja wartości optymalnej.

  5. Z funkcji optymalnej wartości możemy odzyskać optymalną politykę, wybierając działanie maksymalizujące w równaniu (4) dla każdego stanu.

Szczegóły kroków

1

Ponieważ , mamy . A jeśli są jakieś takie, że , możemy wybrać lepszą zasady maksymalizując na .V(s)=Vπ(s)=Ea[Qπ(s,a)]Vπ(s)maxaAQπ(s,a)s~VπmaxaAQπ(s,a)Q(s,a)=Qπ(s,a)a

2)

(=>)

Następuje krok 1.

(<=)

tzn. jeśli spełnia , następnie .V~V~(s)=maxaA[R(s,a)+γsST(s,a,s)V~(s)]V~(s)=V(s)=maxπVπ(s),sS

Zdefiniuj optymalnego operatora Bellmana jako Więc naszym celem jest udowodnienie, że jeśli , to . Pokazujemy to, łącząc dwa wyniki, zgodnie z Putermanem [1]:

(5)TV(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
V~=TV~V~=V

a) Jeśli , to .V~TV~V~V

b) Jeśli , to .V~TV~V~V

Dowód:

za)

Dla dowolnego , Tutaj jest regułą decyzyjną (profil działania w określonym czasie), jest wektorową reprezentacją natychmiastowej nagrody indukowane z a jest macierzą przejściową indukowaną z .π=(d1,d2,...)

V~TV~=maxd[Rd+γPdV~]Rd1+γPd1V~
dRddPdd

Indukcyjnie, dla dowolnego , gdzie reprezentuje macierz przejścia -step w .˜ VR d 1 +n

V~Rd1+i=1n1γiPπiRdi+1+γnPπnV~
Pπjjπ

Ponieważ mamy Mamy więc . A ponieważ dotyczy to każdego , dochodzimy do wniosku, że b)˜ V - V πγ

Vπ=Rd1+i=1γiPπiRdi+1
V~VπγnPπnV~i=nγiPπiRdi+10 as n
V~Vππ
V~maxπVπ=V

Wynika z kroku 1.

3)

Optymalnym operatorem Bellmana jest skurcz w normie , por. [2]L

Dowód: Dla każdej , gdzie w (*) użyliśmy faktu, że s maxaf(a)-max a g(a)maxa[f(a)-g(a)]

|TV1(s)TV2(s)|=|maxaA[R(s,a)+γsST(s,a,s)V1(s)]maxaA[R(s,a)+γsST(s,a,s)V(s)]|()|maxaA[γsST(s,a,s)(V1(s)V2(s))]|γV1V2
maxaf(a)maxag(a)maxa[f(a)g(a)]

Zatem według teorii Banacha o punkcie stałym wynika, że ma unikalny punkt stały.T

Bibliografia

[1] Puterman, Martin L. .. „Procesy decyzyjne Markowa: dyskretne stochastyczne programowanie dynamiczne”. (2016).

[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.