Oprawa
Rozważamy w kontekście:
- Dyskretne działania
- Stany dyskretne
- Ograniczone nagrody
- Polityka stacjonarna
- Nieskończony horyzont
V ∗ = max π V π ( s ) , ∀ s ∈ S V ∗ = V π ∗
π∗∈argmaxπVπ(s),∀s∈S(1)
V∗=maxπVπ(s),∀s∈S(2)
V∗=Vπ∗(3)
Pytanie
Jak udowodnić, że istnieje co najmniej jeden który spełnia (1) jednocześnie dla wszystkich ? s ∈ Sπ∗s∈S
Zarys dowodu
Skonstruuj równanie optymalne, które będzie stosowane jako tymczasowa zastępcza definicja funkcji wartości optymalnej, co udowodnimy w kroku 2, że jest ona równoważna definicji za pomocą równania (2).
V∗(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V∗(s′)](4)
Wyznacz równoważność zdefiniowania funkcji wartości optymalnej za pomocą równania (4) i równania (2).
(Zauważ, że w rzeczywistości potrzebujemy tylko kierunku konieczności w dowodzie, ponieważ wystarczalność jest oczywista, ponieważ skonstruowaliśmy równanie (4) z równania (2).)
Udowodnij, że istnieje unikalne rozwiązanie równania (4).
W kroku 2 wiemy, że rozwiązanie uzyskane w kroku 3 jest również rozwiązaniem dla równania (2), więc jest to funkcja wartości optymalnej.
Z funkcji optymalnej wartości możemy odzyskać optymalną politykę, wybierając działanie maksymalizujące w równaniu (4) dla każdego stanu.
Szczegóły kroków
1
Ponieważ , mamy . A jeśli są jakieś takie, że , możemy wybrać lepszą zasady maksymalizując na .V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)]Vπ∗(s)≤maxa∈AQπ∗(s,a)s~Vπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a
2)
(=>)
Następuje krok 1.
(<=)
tzn. jeśli spełnia , następnie .V~V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
Zdefiniuj optymalnego operatora Bellmana jako
Więc naszym celem jest udowodnienie, że jeśli , to . Pokazujemy to, łącząc dwa wyniki, zgodnie z Putermanem [1]:
TV(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
V~=TV~V~=V∗
a) Jeśli , to .V~≥TV~V~≥V∗
b) Jeśli , to .V~≤TV~V~≤V∗
Dowód:
za)
Dla dowolnego ,
Tutaj jest regułą decyzyjną (profil działania w określonym czasie), jest wektorową reprezentacją natychmiastowej nagrody indukowane z a jest macierzą przejściową indukowaną z .π=(d1,d2,...)
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
dRddPdd
Indukcyjnie, dla dowolnego ,
gdzie reprezentuje macierz przejścia -step w .˜ V ≥ R d 1 +n
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
Pjπjπ
Ponieważ
mamy
Mamy więc . A ponieważ dotyczy to każdego , dochodzimy do wniosku, że
b)˜ V - V π ≥ γ
Vπ=Rd1+∑i=1∞γiPiπRdi+1
V~−Vπ≥γnPnπV~−∑i=n∞γiPiπRdi+1→0 as n→∞
V~≥VππV~≥maxπVπ=V∗
Wynika z kroku 1.
3)
Optymalnym operatorem Bellmana jest skurcz w normie , por. [2]L∞
Dowód: Dla każdej ,
gdzie w (*) użyliśmy faktu, że
s maxaf(a)-max a ′ g(a′)≤maxa[f(a)-g(a)]
|TV1(s)−TV2(s)|=∣∣∣∣maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V1(s′)]−maxa′∈A[R(s,a′)+γ∑s′∈ST(s,a′,s′)V(s′)]∣∣∣∣≤(∗)∣∣∣∣maxa∈A[γ∑s′∈ST(s,a,s′)(V1(s′)−V2(s′))]∣∣∣∣≤γ∥V1−V2∥∞
maxaf(a)−maxa′g(a′)≤maxa[f(a)−g(a)]
Zatem według teorii Banacha o punkcie stałym wynika, że ma unikalny punkt stały.T
Bibliografia
[1] Puterman, Martin L. .. „Procesy decyzyjne Markowa: dyskretne stochastyczne programowanie dynamiczne”. (2016).
[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf