Wyprowadzanie równania Bellmana w uczeniu się zbrojenia


Odpowiedzi:


7

To jest odpowiedź dla każdego, kto zastanawia się nad czystą, ustrukturyzowaną matematyką (tj. Jeśli należysz do grupy ludzi, która wie, czym jest zmienna losowa i że musisz pokazać lub założyć, że zmienna losowa ma gęstość, to jest to odpowiedź dla ciebie ;-)):

Przede wszystkim musimy mieć pewność, że proces decyzyjny Markowa ma tylko skończoną liczbę , tzn. Potrzebujemy skończonego zbioru gęstości, z których każda należy do zmiennych , tj. dla wszystkich i mapy takie, że (tzn. w automatach stojących za MDP może istnieć nieskończenie wiele stanów, ale istnieje tylko skończenie wiele -rozkładów zależnych od możliwych nieskończonych przejść między stanami)L1EL1Rxe(x)dx<eEF:A×SE

p(rt|at,st)=F(at,st)(rt)
L1

Twierdzenie 1 : Niech (tj. Całkowita rzeczywista zmienna losowa) i niech będzie inną zmienną losową taką, że mają wspólną gęstość, a następnie XL1(Ω)YX,Y

E[X|Y=y]=Rxp(x|y)dx

Dowód : zasadniczo udowodniony tutaj przez Stefana Hansena.

Twierdzenie 2 : Niech i niech będą kolejnymi zmiennymi losowymi, tak aby miały wspólną gęstość, a następnie gdzie jest zakres .XL1(Ω)Y,ZX,Y,Z

E[X|Y=y]=Zp(z|y)E[X|Y=y,Z=z]dz
ZZ

Dowód :

E[X|Y=y]=Rxp(x|y)dx    (by Thm. 1)=Rxp(x,y)p(y)dx=RxZp(x,y,z)dzp(y)dx=ZRxp(x,y,z)p(y)dxdz=ZRxp(x|y,z)p(z|y)dxdz=Zp(z|y)Rxp(x|y,z)dxdz=Zp(z|y)E[X|Y=y,Z=z]dz    (by Thm. 1)

Wstaw i wstaw wtedy można pokazać (wykorzystując fakt, że MDP ma tylko skończenie wiele -odardów), że zbieżny i że od funkcjijest wciąż w (tj. całkowalne), można również wykazać (używając zwykłej kombinacji twierdzeń o monotonicznej zbieżności, a następnie dominującej zbieżności na równaniach definiujących [rozkład na czynniki] oczekiwań warunkowych), że Teraz to pokazuje Gt=k=0γkRt+kGt(K)=k=0KγkRt+kL1Gt(K)k=0γk|Rt+k|L1(Ω)

limKE[Gt(K)|St=st]=E[Gt|St=st]
E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1(K1)|St+1=st+1]dst+1
przy użyciu , Thm. 2 powyżej to Thm. 1 na a następnie używając prostej wojny o marginalizację, pokazano, że dla wszystkich . Teraz musimy zastosować limit do obu stron równania. Aby przeciągnąć granicę do całki nad przestrzenią stanu , musimy przyjąć kilka dodatkowych założeń:Gt(K)=Rt+γGt+1(K1)E[Gt+1(K1)|St+1=s,St=st]p(rq|st+1,st)=p(rq|st+1)qt+1KS

Albo przestrzeń stanów jest skończona (wtedy i suma jest skończona) lub wszystkie nagrody są dodatnie (wtedy używamy zbieżności monotonicznej) lub wszystkie nagrody są ujemne (następnie umieszczamy znak minus przed znakiem równanie i ponownie skorzystamy z konwergencji monotonicznej) lub wszystkie nagrody zostaną ograniczone (wówczas użyjemy dominacji konwergencji). Następnie (stosując po obu stronach powyższego równania Bellmana częściowego / skończonego) otrzymujemyS=SlimK

E[Gt|St=st]=E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1|St+1=st+1]dst+1

a reszta to zwykła manipulacja gęstością.

UWAGA: Nawet w bardzo prostych zadaniach przestrzeń stanu może być nieskończona! Jednym z przykładów byłoby zadanie „równoważenia bieguna”. Stan to zasadniczo kąt bieguna (wartość w , zbiór niepoliczalnie nieskończony!)[0,2π)

UWAGA: Ludzie mogą komentować ciasto, ten dowód można znacznie skrócić, jeśli użyjesz bezpośrednio gęstości i pokażesz, że '... ALE ... moje pytania brzmiałyby:Gtp(gt+1|st+1,st)=p(gt+1|st+1)

  1. Skąd w ogóle wiesz, że ma gęstość?Gt+1
  2. Dlaczego w ogóle wiesz, że ma wspólną gęstość wraz z ?Gt+1St+1,St
  3. Jak wywnioskować, że ? Jest to nie tylko właściwość Markowa: Właściwość Markowa mówi tylko coś o rozkładach krańcowych, ale niekoniecznie determinują cały rozkład, patrz np. Gaussianie na wielu odmianach!p(gt+1|st+1,st)=p(gt+1|st+1)

10

Niech całkowita suma zdyskontowanych nagród po czasie będzie wynosić: t
Gt=Rt+1+γRt+2+γ2Rt+3+...

Wartość użytkową począwszy od stanu, przy czasie jest równa oczekiwanej sumy od dyskontowane nagrody wykonywać polityki począwszy od stanu r. Z definicji Zgodnie z prawem liniowości Zgodnie z prawemst
Rπs
Uπ(St=s)=Eπ[Gt|St=s]
=Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]Gt
=Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
=Eπ[(Rt+1+γ(Gt+1))|St=s]
=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s)|St=s]Całkowite oczekiwanie Z definicji Według zasady liniowości
=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s)|St=s]Uπ
=Eπ[Rt+1+γUπ(St+1=s)|St=s]

Zakładając, że proces spełnia właściwość Markowa:
Prawdopodobieństwo, że skończy w stanie , rozpoczęło się od stanu i podjął działanie , i Nagroda za ukończenie w stanie rozpoczęta od stanu i podjęta akcja , Prssa
Pr(s|s,a)=Pr(St+1=s,St=s,At=a)
Rssa
R(s,a,s)=[Rt+1|St=s,At=a,St+1=s]

Dlatego możemy ponownie zapisać powyższe równanie użyteczności jako:
=aπ(a|s)sPr(s|s,a)[R(s,a,s)+γUπ(St+1=s)]

Gdzie; : Prawdopodobieństwo podjęcia działań gdy w stan dla stochastycznego polityki. W przypadku polityki deterministycznejπ(a|s)asaπ(a|s)=1


Tylko kilka uwag: Suma ponad jest równa 1 nawet w polityce stochastycznej, ale w polityce deterministycznej jest tylko jedna akcja, która otrzymuje pełną wagę (tj. i reszta . odbierać 0 wadze, tak że termin ten jest usuwany z równania również w linii użytego prawo łącznej oczekiwania, kolejność condtionals ulega odwróceniuππ(a|s)=1
Gilada Peleg

1
Jestem pewien, że ta odpowiedź jest niepoprawna: podążajmy za równaniami aż do linii obejmującej prawo całkowitego oczekiwania. Zatem lewa strona nie zależy od podczas gdy prawa strona ... To znaczy jeśli równania są poprawne, to dla których są poprawne? Na tym etapie musisz mieć jakąś całkę nad . Przyczyną jest prawdopodobnie twoje niezrozumienie różnicy (zmienna losowa) w porównaniu do jej faktoryzacji (funkcja deterministyczna!) ...sssE[X|Y]E[X|Y=y]
Fabian Werner

@FabianWerner Zgadzam się, że to nie jest poprawne. Odpowiedź Jie Shi to właściwa odpowiedź.
teucer

@teucer Tę odpowiedź można naprawić, ponieważ brakuje tylko „symetryzacji”, tj. ale nadal pytanie jest takie samo jak w odpowiedzi Jie Shis: Dlaczego ? Jest to nie tylko właściwość Markowa, ponieważ jest naprawdę skomplikowanym RV: czy w ogóle się zbiega? Jeśli tak to gdzie? Jaka jest wspólna gęstość ? Znamy to wyrażenie tylko dla sum skończonych (skomplikowane splot), ale dla przypadku nieskończonego? E[A|C=c]=range(B)p(b|c)E[A|B=b,C=c]dPB(b)E[Gt+1|St+1=st+1,St=st]=E[Gt+1|St+1=st+1]Gt+1p(gt+1,st+1,st)
Fabian Werner,

@FabianWerner nie jestem pewien, czy mogę odpowiedzieć na wszystkie pytania. Poniżej kilka wskazówek. W przypadku zbieżności , biorąc pod uwagę, że jest to suma zdyskontowanych nagród, uzasadnione jest założenie, że szereg zbiega się (współczynnik dyskontowania wynosi i to, gdzie zbieżność nie ma znaczenia). Nie interesuje mnie gęstość (zawsze można zdefiniować gęstość połączenia, o ile mamy zmienne losowe), ma to znaczenie tylko wtedy, gdy jest dobrze zdefiniowane i w takim przypadku tak jest. Gt+1<1
zwiastun

8

Oto mój dowód. Opiera się na manipulowaniu rozkładami warunkowymi, co ułatwia śledzenie. Mam nadzieję, że to ci pomoże.

vπ(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]=srgt+1ap(s,r,gt+1,a|s)(r+γgt+1)=ap(a|s)srgt+1p(s,r,gt+1|a,s)(r+γgt+1)=ap(a|s)srgt+1p(s,r|a,s)p(gt+1|s,r,a,s)(r+γgt+1)Note that p(gt+1|s,r,a,s)=p(gt+1|s) by assumption of MDP=ap(a|s)srp(s,r|a,s)gt+1p(gt+1|s)(r+γgt+1)=ap(a|s)srp(s,r|a,s)(r+γgt+1p(gt+1|s)gt+1)=ap(a|s)srp(s,r|a,s)(r+γvπ(s))
To słynne równanie Bellmana.


Czy masz coś więcej do wyjaśnienia tego komentarza „Uwaga…”? Dlaczego te losowe zmienne oraz zmienne stanu i akcji mają nawet wspólną gęstość? Jeśli tak, to dlaczego znasz tę właściwość, której używasz? Widzę, że dotyczy to sumy skończonej, ale jeśli zmienna losowa jest granicą ... ??? Gt+1
Fabian Werner,

Do Fabiana: Najpierw przypomnijmy sobie, co to jest . . Zauważ, że zależy bezpośrednio tylko od i ponieważ przechwytuje wszystkie informacje o przejściu MDP (a dokładniej jest niezależny od wszystkich stanów, akcji i nagród przed czasem biorąc pod uwagę i ). Podobnie zależy tylko od i . W rezultacie jest niezależny od ,Gt+1Gt+1=Rt+2+Rt+3+Rt+2St+1At+1p(s,r|s,a)Rt+2t+1St+1At+1Rt+3St+2At+2Gt+1StAt, a podał , co wyjaśnia tę linię. RtSt+1
Jie Shi

Przepraszam, to tylko „motywuje” to, tak naprawdę nic nie wyjaśnia. Na przykład: Jaka jest gęstość ? Dlaczego jesteś pewien, że ? Dlaczego te losowe zmienne mają nawet wspólną gęstość? Wiesz, że suma przekształca się w splot gęstości, więc co ... powinno mieć nieskończoną ilość całek w gęstości ??? Absolutnie nie ma kandydata na gęstość! Gt+1p(gt+1|st+1,st)=p(gt+1|st+1)Gt+1
Fabian Werner

Do Fabiana: nie dostaję twojego pytania. 1. Chcesz dokładną postać rozkładu krańcowego ? Nie wiem tego i nie potrzebujemy tego w tym dowodzie. 2. dlaczego ? Ponieważ, jak wspomniałem wcześniej, i są niezależne, biorąc pod uwagę . 3. Co rozumiesz przez „wspólną gęstość”? Masz na myśli wspólną dystrybucję? Chcesz wiedzieć, dlaczego te zmienne losowe mają wspólny rozkład? Wszystkie losowe zmienne w tym wszechświecie mogą mieć wspólny rozkład. Jeśli to twoje pytanie, proponuję znaleźć książkę z teorią prawdopodobieństwa i ją przeczytać. p(gt+1)p(gt+1|st+1,st)=p(gt+1|st+1)gt+1stst+1
Jie Shi


2

Co z następującym podejściem?

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)Eπ[Rt+1+γGt+1St=s,At+1=a,St+1=s,Rt+1=r]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)].

Sumy są wprowadzane w celu uzyskania , i z . W końcu mogą być możliwe działania i możliwe następne stany. W tych dodatkowych warunkach liniowość oczekiwań prowadzi do wyniku prawie bezpośrednio.asrs

Nie jestem jednak pewien, jak rygorystycznie mój argument jest matematyczny. Jestem otwarty na ulepszenia.


Ostatni wiersz działa tylko ze względu na właściwość MDP.
zwiastun

2

To tylko komentarz / dodatek do zaakceptowanej odpowiedzi.

Byłem zdezorientowany na linii, w której stosuje się prawo całkowitego oczekiwania. Nie sądzę, aby główna forma prawa całkowitego oczekiwania mogła tu pomóc. Wariant tego jest w rzeczywistości potrzebny tutaj.

Jeśli są zmiennymi losowymi i przy założeniu, że istnieje całe oczekiwanie, zachowuje się następująca tożsamość:X,Y,Z

E[X|Y]=E[E[X|Y,Z]|Y]

W tym przypadku , i . NastępnieX=Gt+1Y=StZ=St+1

E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s|St=s] , które przez właściwość Markowa równoważyE[E[Gt+1|St+1=s]|St=s]

Stamtąd można śledzić resztę dowodu z odpowiedzi.


1
Witamy w CV! Proszę używać odpowiedzi tylko do odpowiedzi na pytanie. Gdy masz wystarczającą reputację (50), możesz dodawać komentarze.
Frans Rodenburg

Dziękuję Ci. Tak, ponieważ nie mogłem komentować z powodu braku wystarczającej reputacji, pomyślałem, że przydatne może być dodanie wyjaśnienia do odpowiedzi. Ale będę o tym pamiętać.
Mehdi Golari,

Głosowałem, ale mimo to w tej odpowiedzi brakuje szczegółów: nawet jeśli spełnia ten szalony związek, to nikt nie gwarantuje, że jest to prawdą także w przypadku rozkładów na czynniki warunkowe! Czyli tak jak w przypadku z odpowiedzią Ntabgoba: Po lewej stronie nie zależy od natomiast z prawej strony robi . To równanie nie może być poprawne! E[X|Y]s
Fabian Werner

1

Eπ() zwykle oznacza oczekiwanie przy założeniu, że agent przestrzega zasad . W tym przypadku wydaje zakaz deterministyczny, czyli zwraca prawdopodobieństwo, że agent podejmuje działania kiedy w stan .ππ(a|s)as

Wygląda na to, że , małe litery, zastępuje , zmienną losową. Drugie oczekiwanie zastępuje nieskończoną sumę, aby odzwierciedlić założenie, że będziemy podążać przez całą przyszłość . jest wówczas oczekiwaną natychmiastową nagrodą w następnym kroku czasowym; Drugi oczekiwania, która staje -jest oczekiwaną wartość następnego stanu, ważonej przez prawdopodobieństwo zwijania się w stan wziąwszy od .rRt+1πts,rrp(s,r|s,a)vπsas

Zatem oczekiwanie uwzględnia prawdopodobieństwo polisy, a także funkcje przejścia i nagrody, tutaj wyrażone łącznie jako .p(s,r|s,a)


Dzięki. Tak, co wspomniałeś o jest poprawna (to prawdopodobieństwo agenta podejmowania działań gdy w stan ). π(a|s)as
Amelio Vazquez-Reina

Nie podążam za tym, jakie terminy dokładnie rozszerzają się na jakie terminy w drugim etapie (jestem zaznajomiony z faktoryzacją prawdopodobieństwa i marginalizacją, ale nie tak bardzo z RL). Czy jest rozszerzany? Tj. Co dokładnie w poprzednim kroku równa się co dokładnie w następnym kroku? Rt
Amelio Vazquez-Reina

1
Wygląda na to, że , małe litery, zastępuje , zmienną losową, a drugie oczekiwanie zastępuje nieskończoną sumę (prawdopodobnie w celu odzwierciedlenia założenia, że ​​nadal będziemy podążać za przez całą przyszłość ). jest wówczas oczekiwaną natychmiastową nagrodą w następnym kroku czasowym, a drugie oczekiwanie - które staje się - jest oczekiwaną wartością następnego stanu, ważoną prawdopodobieństwem od likwidacji w stan wziąwszy z . rRt+1πtΣp(s,r|s,a)rvπsas
Sean Easter

1

mimo że poprawna odpowiedź została już udzielona i minęło trochę czasu, pomyślałem, że może być przydatny następujący przewodnik krok po kroku:
Poprzez liniowość oczekiwanej wartości możemy podzielić na i . Przedstawię kroki tylko w pierwszej części, ponieważ w drugiej części następują te same kroki w połączeniu z prawem całkowitego oczekiwania.E[Rt+1+γE[Gt+1|St=s]]E[Rt+1|St=s]γE[Gt+1|St=s]

E[Rt+1|St=s]=rrP[Rt+1=r|St=s]=arrP[Rt+1=r,At=a|St=s](III)=arrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=sarrP[St+1=s,Rt+1=r|At=a,St=s]P[At=a|St=s]=aπ(a|s)s,rp(s,r|s,a)r

Podczas gdy (III) ma postać:

P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]


1

Wiem, że istnieje już akceptowana odpowiedź, ale chcę podać prawdopodobnie bardziej konkretne pochodne. Chciałbym również wspomnieć, że chociaż sztuczka @Jie Shi ma sens, ale sprawia, że ​​czuję się bardzo nieswojo :(. Musimy wziąć pod uwagę wymiar czasu, aby ta praca działała. Ważne jest, aby pamiętać, że oczekiwanie jest w rzeczywistości przejął cały nieskończony horyzont, a nie tylko i . Załóżmy, że zaczynamy od (w rzeczywistości wyprowadzenie jest takie samo bez względu na czas rozpoczęcia; nie chcę zanieczyszczać równań innym indeksem dolnym ) sst=0k

vπ(s0)=Eπ[G0|s0]G0=t=0T1γtRt+1Eπ[G0|s0]=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(t=0T1γtrt+1))=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(r1+γt=0T2γtrt+2))
ODNOTOWUJE, ŻE POWYŻSZE RÓWNANIE JEST NAWET JEŚLI , FAKTEM BĘDZIE PRAWDĄ AŻ DO KOŃCA UNIWERSYTETU (być może trochę przesadzone :))T
Na tym etapie uważam, że większość z nas powinna już pamiętać, w jaki sposób powyższe prowadzi do ostatecznego wyrażenia - musimy tylko zastosować zasadę sum-iloczyn ( ) . Zastosujmy prawo liniowości Oczekiwania do każdego terminu wewnątrzabcabcaabbcc(r1+γt=0T2γtrt+2)

Część 1

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×r1)

Cóż, jest to raczej trywialne, wszystkie prawdopodobieństwa znikają (faktycznie sumują się do 1) oprócz tych związanych z . Dlatego mamy r1

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×r1

Część 2
Zgadnij co, ta część jest jeszcze bardziej trywialna - polega jedynie na zmianie kolejności sumowań.

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at))=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)(a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))

I Eureka !! odzyskujemy wzór rekurencyjny z boku dużych nawiasów. Połączmy to z , a otrzymamy a część 2 staje się γt=0T2γtrt+2vπ(s1)=Eπ[G1|s1]

γEπ[G1|s1]=a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1))(γt=0T2γtrt+2)

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×γvπ(s1)

Część 1 + Część 2

vπ(s0)=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))

A teraz, jeśli uda nam się zmieścić w wymiarze czasu i odzyskać ogólne formuły rekurencyjne

vπ(s)=aπ(a|s)s,rp(s,r|s,a)×(r+γvπ(s))

Ostateczna spowiedź, roześmiałem się, gdy zobaczyłem, że ludzie powyżej wspominają o prawie całkowitego oczekiwania. A więc jestem tu


Erm ... co to znaczy symbol „ ”? Nie ma ...a0,...,aa
Fabian Werner

Kolejne pytanie: dlaczego pierwsze równanie jest prawdziwe? Wiem, że ale w naszym przypadku byłby nieskończoną sekwencją zmiennych losowych więc musielibyśmy obliczyć gęstość tej zmiennej (składającej się z nieskończonej ilości zmiennych, których gęstość znamy) wraz z czymś innym (mianowicie stanem). .. jak dokładnie to robisz? Tj. Co to jest ? E[f(X)|Y=y]=Xf(x)p(x|y)dxX(R0,R1,R2,........)p(r0,r1,....)
Fabian Werner

@FabianWerner. Weź głęboki oddech, aby najpierw uspokoić swój mózg :). Pozwól, że odpowiem na twoje pierwsze pytanie. . Jeśli przypomnisz sobie definicję funkcji wartości, jest to w rzeczywistości suma zdyskontowanych przyszłych nagród. Jeśli weźmiemy pod uwagę nieskończony horyzont naszych przyszłych nagród, musimy sumować nieskończoną liczbę razy. Nagroda jest wynikiem podjęcia akcji ze stanu, ponieważ istnieje nieskończona liczba nagród, powinna istnieć nieskończona liczba akcji, stąd . a0,...,aa0a1,...,aa
Karlsson Yu

1
załóżmy, że zgadzam się z tym, że istnieje jakiś dziwny (którego wciąż wątpię, zwykle studenci w pierwszym semestrze matematyki mają tendencję do mylenia granicy z konstrukcją, która faktycznie zawiera nieskończony element) ... Nadal mam jedno proste pytanie: jak zdefiniować „ ? Wiem, co to wyrażenie ma znaczyć ze skończoną ilością sum ... ale nieskończenie wiele z nich? Co rozumiesz przez to wyrażenie? aa1...a
Fabian Werner

1
Internet. Czy możesz odesłać mnie do strony lub dowolnego miejsca, które określa Twoje wyrażenie? Jeśli nie, to faktycznie zdefiniowałeś coś nowego i nie ma sensu o tym dyskutować, ponieważ jest to tylko wymyślony przez ciebie symbol (ale nie ma za tym sensu) ... zgadzasz się, że możemy dyskutować tylko o tym symbolu jeśli oboje wiemy, co to znaczy, prawda? Więc nie wiem, co to znaczy, proszę wyjaśnij ...
Fabian Werner

1

Istnieje już bardzo wiele odpowiedzi na to pytanie, ale większość zawiera kilka słów opisujących, co dzieje się w manipulacjach. Myślę, że odpowiem używając więcej słów. Zacząć,

Gtk=t+1Tγkt1Rk

jest zdefiniowany w równaniu 3.11 Sutton i Barto, ze stałym współczynnikiem dyskontowym i możemy mieć lub , ale nie oba. Ponieważ nagrody, , są zmiennymi losowymi, podobnie jak ponieważ jest to tylko liniowa kombinacja zmiennych losowych.0γ1T=γ=1RkGt

vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]

Ta ostatnia linia wynika z liniowości wartości oczekiwanych. to nagroda, którą agent otrzymuje po podjęciu działania w kroku czasu . Dla uproszczenia zakładam, że może on przyjąć skończoną liczbę wartości . Rt+1trR

Pracuj przez pierwszy semestr. Innymi słowy, muszę obliczyć wartości oczekiwane biorąc pod uwagę, że wiemy, że obecny stan to . Wzór na to jest następującyRt+1s

Eπ[Rt+1|St=s]=rRrp(r|s).

Innymi słowy, prawdopodobieństwo pojawienia się nagrody zależy od stanu ; różne stany mogą mieć różne nagrody. Ten rozkład jest rozkładem krańcowym rozkładu, który zawierał również zmienne i , działanie podjęte w czasie oraz stan w czasie po działaniu, odpowiednio:rsp(r|s)astt+1

p(r|s)=sSaAp(s,a,r|s)=sSaAπ(a|s)p(s,r|a,s).

Gdzie użyłem , zgodnie z konwencją książki. Jeśli ta ostatnia równość jest myląca, zapomnij o sumach, pomiń (prawdopodobieństwo wygląda teraz jak wspólne prawdopodobieństwo), skorzystaj z prawa pomnożenia i na końcu przywróć warunek na we wszystkich nowych kategoriach. Teraz łatwo zauważyć, że jest to pierwszy terminπ(a|s)p(a|s)ss

Eπ[Rt+1|St=s]=rRsSaArπ(a|s)p(s,r|a,s),

jako wymagane. Przejdźmy do drugiego terminu, w którym zakładam, że jest zmienną losową, która przyjmuje skończoną liczbę wartości . Podobnie jak w pierwszym semestrze:Gt+1gΓ

Eπ[Gt+1|St=s]=gΓgp(g|s).()

Po raz kolejny „marginalizuję” rozkład prawdopodobieństwa pisząc (ponownie prawo mnożenia)

p(g|s)=rRsSaAp(s,r,a,g|s)=rRsSaAp(g|s,r,a,s)p(s,r,a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s)p(s,r|a,s)π(a|s)()

Ostatni wiersz pochodzi z nieruchomości Markowa. Pamiętaj, że to suma wszystkich przyszłych (zdyskontowanych) nagród, które agent otrzymuje po stanie . Właściwość Markovian polega na tym, że proces ten nie wymaga pamięci w odniesieniu do poprzednich stanów, działań i nagród. Przyszłe działania (i nagrody, które czerpią) zależą tylko od stanu, w którym działanie jest podejmowane, więc , z założenia. Ok, więc teraz jest drugi termin w dowodzieGt+1sp(g|s,r,a,s)=p(g|s)

γEπ[Gt+1|St=s]=γgΓrRsSaAgp(g|s)p(s,r|a,s)π(a|s)=γrRsSaAEπ[Gt+1|St+1=s]p(s,r|a,s)π(a|s)=γrRsSaAvπ(s)p(s,r|a,s)π(a|s)

w razie potrzeby, jeszcze raz. Połączenie dwóch terminów stanowi dowód

vπ(s)Eπ[GtSt=s]=aAπ(a|s)rRsSp(s,r|a,s)[r+γvπ(s)].

AKTUALIZACJA

Chcę zająć się czymś, co może wyglądać jak sztuczka w wyprowadzaniu drugiego semestru. W równaniu oznaczonym używam terminu a następnie w równaniu oznaczonym twierdzę, że nie zależy od , argumentując właściwość Markoviana. Można więc powiedzieć, że jeśli tak jest, to . Ale to nie jest prawda. Mogę wziąć ponieważ prawdopodobieństwo po lewej stronie tego stwierdzenia mówi, że jest to prawdopodobieństwo uwarunkowane na , , i()p(g|s)()gsp(g|s)=p(g)p(g|s,r,a,s)p(g|s)gsars. Ponieważ albo znamy, albo zakładamy, że stan nie , żaden z pozostałych warunków nie ma znaczenia, z powodu własności Markowa. Jeśli nie wiesz, czy zakładamy stan , a następnie nagrody przyszłości (Sens ) zależeć będzie od którego stan zaczniesz na, bo to będzie określić (na podstawie polisy), które stwierdzają, uruchomieniu na przy obliczaniu .ssgsg

Jeśli ten argument cię nie przekonuje, spróbuj obliczyć, czym jest :p(g)

p(g)=sSp(g,s)=sSp(g|s)p(s)=sSp(g|s)s,a,rp(s,a,r,s)=sSp(g|s)s,a,rp(s,r|a,s)p(a,s)=sSp(s)sSp(g|s)a,rp(s,r|a,s)π(a|s)sSp(s)p(g|s)=sSp(g,s)=p(g).

Jak widać w ostatnim wierszu, nie jest prawdą, że . Oczekiwana wartość zależy od stanu, w którym zaczynasz (tj. Tożsamości ), jeśli nie znasz stanu lub go nie zakładasz .p(g|s)=p(g)gss

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.