Widzę następujące równanie w „ In Reinforcement Learning. An Introduction ”, ale nie do końca podążam za krokiem, który zaznaczyłem na niebiesko poniżej. Jak dokładnie pochodzi ten krok?
Widzę następujące równanie w „ In Reinforcement Learning. An Introduction ”, ale nie do końca podążam za krokiem, który zaznaczyłem na niebiesko poniżej. Jak dokładnie pochodzi ten krok?
Odpowiedzi:
To jest odpowiedź dla każdego, kto zastanawia się nad czystą, ustrukturyzowaną matematyką (tj. Jeśli należysz do grupy ludzi, która wie, czym jest zmienna losowa i że musisz pokazać lub założyć, że zmienna losowa ma gęstość, to jest to odpowiedź dla ciebie ;-)):
Przede wszystkim musimy mieć pewność, że proces decyzyjny Markowa ma tylko skończoną liczbę , tzn. Potrzebujemy skończonego zbioru gęstości, z których każda należy do zmiennych , tj. dla wszystkich i mapy takie, że
(tzn. w automatach stojących za MDP może istnieć nieskończenie wiele stanów, ale istnieje tylko skończenie wiele -rozkładów zależnych od możliwych nieskończonych przejść między stanami)
Twierdzenie 1 : Niech (tj. Całkowita rzeczywista zmienna losowa) i niech będzie inną zmienną losową taką, że mają wspólną gęstość, a następnie
Dowód : zasadniczo udowodniony tutaj przez Stefana Hansena.
Twierdzenie 2 : Niech i niech będą kolejnymi zmiennymi losowymi, tak aby miały wspólną gęstość, a następnie
gdzie jest zakres .
Dowód :
Wstaw i wstaw wtedy można pokazać (wykorzystując fakt, że MDP ma tylko skończenie wiele -odardów), że zbieżny i że od funkcjijest wciąż w (tj. całkowalne), można również wykazać (używając zwykłej kombinacji twierdzeń o monotonicznej zbieżności, a następnie dominującej zbieżności na równaniach definiujących [rozkład na czynniki] oczekiwań warunkowych), że
Teraz to pokazuje
Albo przestrzeń stanów jest skończona (wtedy i suma jest skończona) lub wszystkie nagrody są dodatnie (wtedy używamy zbieżności monotonicznej) lub wszystkie nagrody są ujemne (następnie umieszczamy znak minus przed znakiem równanie i ponownie skorzystamy z konwergencji monotonicznej) lub wszystkie nagrody zostaną ograniczone (wówczas użyjemy dominacji konwergencji). Następnie (stosując po obu stronach powyższego równania Bellmana częściowego / skończonego) otrzymujemy
a reszta to zwykła manipulacja gęstością.
UWAGA: Nawet w bardzo prostych zadaniach przestrzeń stanu może być nieskończona! Jednym z przykładów byłoby zadanie „równoważenia bieguna”. Stan to zasadniczo kąt bieguna (wartość w , zbiór niepoliczalnie nieskończony!)
UWAGA: Ludzie mogą komentować ciasto, ten dowód można znacznie skrócić, jeśli użyjesz bezpośrednio gęstości i pokażesz, że '... ALE ... moje pytania brzmiałyby:
Niech całkowita suma zdyskontowanych nagród po czasie będzie wynosić:
Wartość użytkową począwszy od stanu, przy czasie jest równa oczekiwanej sumy od
dyskontowane nagrody wykonywać polityki począwszy od stanu r.
Z definicji Zgodnie z prawem liniowości
Zgodnie z prawem
Całkowite oczekiwanie
Z definicji Według zasady liniowości
Zakładając, że proces spełnia właściwość Markowa:
Prawdopodobieństwo, że skończy w stanie , rozpoczęło się od stanu i podjął działanie ,
i
Nagroda za ukończenie w stanie rozpoczęta od stanu i podjęta akcja ,
Dlatego możemy ponownie zapisać powyższe równanie użyteczności jako:
Gdzie; : Prawdopodobieństwo podjęcia działań gdy w stan dla stochastycznego polityki. W przypadku polityki deterministycznej
Oto mój dowód. Opiera się na manipulowaniu rozkładami warunkowymi, co ułatwia śledzenie. Mam nadzieję, że to ci pomoże.
Co z następującym podejściem?
Sumy są wprowadzane w celu uzyskania , i z . W końcu mogą być możliwe działania i możliwe następne stany. W tych dodatkowych warunkach liniowość oczekiwań prowadzi do wyniku prawie bezpośrednio.
Nie jestem jednak pewien, jak rygorystycznie mój argument jest matematyczny. Jestem otwarty na ulepszenia.
To tylko komentarz / dodatek do zaakceptowanej odpowiedzi.
Byłem zdezorientowany na linii, w której stosuje się prawo całkowitego oczekiwania. Nie sądzę, aby główna forma prawa całkowitego oczekiwania mogła tu pomóc. Wariant tego jest w rzeczywistości potrzebny tutaj.
Jeśli są zmiennymi losowymi i przy założeniu, że istnieje całe oczekiwanie, zachowuje się następująca tożsamość:
W tym przypadku , i . Następnie
, które przez właściwość Markowa równoważy
Stamtąd można śledzić resztę dowodu z odpowiedzi.
zwykle oznacza oczekiwanie przy założeniu, że agent przestrzega zasad . W tym przypadku wydaje zakaz deterministyczny, czyli zwraca prawdopodobieństwo, że agent podejmuje działania kiedy w stan .
Wygląda na to, że , małe litery, zastępuje , zmienną losową. Drugie oczekiwanie zastępuje nieskończoną sumę, aby odzwierciedlić założenie, że będziemy podążać przez całą przyszłość . jest wówczas oczekiwaną natychmiastową nagrodą w następnym kroku czasowym; Drugi oczekiwania, która staje -jest oczekiwaną wartość następnego stanu, ważonej przez prawdopodobieństwo zwijania się w stan wziąwszy od .
Zatem oczekiwanie uwzględnia prawdopodobieństwo polisy, a także funkcje przejścia i nagrody, tutaj wyrażone łącznie jako .
mimo że poprawna odpowiedź została już udzielona i minęło trochę czasu, pomyślałem, że może być przydatny następujący przewodnik krok po kroku:
Poprzez liniowość oczekiwanej wartości możemy podzielić
na i .
Przedstawię kroki tylko w pierwszej części, ponieważ w drugiej części następują te same kroki w połączeniu z prawem całkowitego oczekiwania.
Podczas gdy (III) ma postać:
Wiem, że istnieje już akceptowana odpowiedź, ale chcę podać prawdopodobnie bardziej konkretne pochodne. Chciałbym również wspomnieć, że chociaż sztuczka @Jie Shi ma sens, ale sprawia, że czuję się bardzo nieswojo :(. Musimy wziąć pod uwagę wymiar czasu, aby ta praca działała. Ważne jest, aby pamiętać, że oczekiwanie jest w rzeczywistości przejął cały nieskończony horyzont, a nie tylko i . Załóżmy, że zaczynamy od (w rzeczywistości wyprowadzenie jest takie samo bez względu na czas rozpoczęcia; nie chcę zanieczyszczać równań innym indeksem dolnym )
Na tym etapie uważam, że większość z nas powinna już pamiętać, w jaki sposób powyższe prowadzi do ostatecznego wyrażenia - musimy tylko zastosować zasadę sum-iloczyn ( ) . Zastosujmy prawo liniowości Oczekiwania do każdego terminu wewnątrz
Część 1
Cóż, jest to raczej trywialne, wszystkie prawdopodobieństwa znikają (faktycznie sumują się do 1) oprócz tych związanych z . Dlatego mamy
Część 2
Zgadnij co, ta część jest jeszcze bardziej trywialna - polega jedynie na zmianie kolejności sumowań.
I Eureka !! odzyskujemy wzór rekurencyjny z boku dużych nawiasów. Połączmy to z , a otrzymamy
a część 2 staje się
Część 1 + Część 2
A teraz, jeśli uda nam się zmieścić w wymiarze czasu i odzyskać ogólne formuły rekurencyjne
Ostateczna spowiedź, roześmiałem się, gdy zobaczyłem, że ludzie powyżej wspominają o prawie całkowitego oczekiwania. A więc jestem tu
Istnieje już bardzo wiele odpowiedzi na to pytanie, ale większość zawiera kilka słów opisujących, co dzieje się w manipulacjach. Myślę, że odpowiem używając więcej słów. Zacząć,
jest zdefiniowany w równaniu 3.11 Sutton i Barto, ze stałym współczynnikiem dyskontowym i możemy mieć lub , ale nie oba. Ponieważ nagrody, , są zmiennymi losowymi, podobnie jak ponieważ jest to tylko liniowa kombinacja zmiennych losowych.
Ta ostatnia linia wynika z liniowości wartości oczekiwanych. to nagroda, którą agent otrzymuje po podjęciu działania w kroku czasu . Dla uproszczenia zakładam, że może on przyjąć skończoną liczbę wartości .
Pracuj przez pierwszy semestr. Innymi słowy, muszę obliczyć wartości oczekiwane biorąc pod uwagę, że wiemy, że obecny stan to . Wzór na to jest następujący
Innymi słowy, prawdopodobieństwo pojawienia się nagrody zależy od stanu ; różne stany mogą mieć różne nagrody. Ten rozkład jest rozkładem krańcowym rozkładu, który zawierał również zmienne i , działanie podjęte w czasie oraz stan w czasie po działaniu, odpowiednio:
Gdzie użyłem , zgodnie z konwencją książki. Jeśli ta ostatnia równość jest myląca, zapomnij o sumach, pomiń (prawdopodobieństwo wygląda teraz jak wspólne prawdopodobieństwo), skorzystaj z prawa pomnożenia i na końcu przywróć warunek na we wszystkich nowych kategoriach. Teraz łatwo zauważyć, że jest to pierwszy termin
jako wymagane. Przejdźmy do drugiego terminu, w którym zakładam, że jest zmienną losową, która przyjmuje skończoną liczbę wartości . Podobnie jak w pierwszym semestrze:
Po raz kolejny „marginalizuję” rozkład prawdopodobieństwa pisząc (ponownie prawo mnożenia)
Ostatni wiersz pochodzi z nieruchomości Markowa. Pamiętaj, że to suma wszystkich przyszłych (zdyskontowanych) nagród, które agent otrzymuje po stanie . Właściwość Markovian polega na tym, że proces ten nie wymaga pamięci w odniesieniu do poprzednich stanów, działań i nagród. Przyszłe działania (i nagrody, które czerpią) zależą tylko od stanu, w którym działanie jest podejmowane, więc , z założenia. Ok, więc teraz jest drugi termin w dowodzie
w razie potrzeby, jeszcze raz. Połączenie dwóch terminów stanowi dowód
AKTUALIZACJA
Chcę zająć się czymś, co może wyglądać jak sztuczka w wyprowadzaniu drugiego semestru. W równaniu oznaczonym używam terminu a następnie w równaniu oznaczonym twierdzę, że nie zależy od , argumentując właściwość Markoviana. Można więc powiedzieć, że jeśli tak jest, to . Ale to nie jest prawda. Mogę wziąć ponieważ prawdopodobieństwo po lewej stronie tego stwierdzenia mówi, że jest to prawdopodobieństwo uwarunkowane na , , i. Ponieważ albo znamy, albo zakładamy, że stan nie , żaden z pozostałych warunków nie ma znaczenia, z powodu własności Markowa. Jeśli nie wiesz, czy zakładamy stan , a następnie nagrody przyszłości (Sens ) zależeć będzie od którego stan zaczniesz na, bo to będzie określić (na podstawie polisy), które stwierdzają, uruchomieniu na przy obliczaniu .
Jeśli ten argument cię nie przekonuje, spróbuj obliczyć, czym jest :
Jak widać w ostatnim wierszu, nie jest prawdą, że . Oczekiwana wartość zależy od stanu, w którym zaczynasz (tj. Tożsamości ), jeśli nie znasz stanu lub go nie zakładasz .