Rozwiązywanie równania Hamiltona-Jacobiego-Bellmana; konieczne i wystarczające dla optymalności?


13

Rozważ następujące równanie różniczkowe gdzie jest stanem, a zmienną kontrolną. Rozwiązanie podano przez gdzie to podany stan początkowy.

x˙(t)=f(x(t),u(t))
xu
x(t)=x0+0tf(x(s),u(s))ds.
x0:=x(0)

Teraz rozważ następujący program gdzie \ rho> 0 oznacza preferencję czasową, V (\ cdot) jest wartością, a F (\ cdot) funkcja celu. Klasycznym zastosowaniem ekonomicznym jest model optymalnego wzrostu Ramsey-Cass-Koopmansa. Równanie Hamiltona-Jacobiego-Bellmana podaje: \ begin {align} \ rho V (x) = \ max_u [F (x, u) + V '(x) f (x, u)], \ quad \ forall t \ w [0, \ infty). \ end {align}

V(x0):=maxu0eρtF(x(t),u(t))dts.t. x˙(t)=f(x(t),u(t))x(0)=x0
ρ>0V()F()
ρV(x)=maxu[F(x,u)+V(x)f(x,u)],t[0,).

Powiedzieć ja rozwiązał HJB dla V . Optymalną kontrolę daje następnie

u=argmaxu[F(x,u)+V(x)f(x,u)].
Zdobędę optymalne trajektorie dla stanu i kontroli {(x(t),u(t)):t[0,)} .

Artykuł na wiki mówi

... ale rozwiązane w całej przestrzeni stanów równanie HJB jest warunkiem koniecznym i wystarczającym do uzyskania optymalnego.

W Bertsekas (2005) Programowanie dynamiczne i kontrola optymalna , tom 1, wydanie trzecie, w Propozycji 3.2.1 stwierdza, że ​​rozwiązanie dla V jest optymalną funkcją kosztu przejścia, a związane z nią u jest optymalne. Jednak jednoznacznie deklaruje to jako twierdzenie wystarczalności.

Właściwie chcę tylko upewnić się, że jeśli rozwiążę HJB i odzyskam powiązany stan i kontroluję trajektorie, nie muszę się martwić żadnymi dodatkowymi warunkami optymalizacyjnymi.

Rozwiązanie

Próbuję

Myślę, że udało mi się wyprowadzić niezbędne warunki z zasady maksimum na podstawie samego równania HJB.

Zdefiniuj hamiltonian

H(x,u,V(x)):=F(x,u)+V(x)f(x,u)

wtedy mamy

ρV(x)=maxuH(x,u,V(x))

czyli

ρV(x)=H(x,u,V(x)).

Zdefiniuj dowolną funkcję pomocą . Teraz napraw q ( 0 ) = lim t q ( t ) = 0 x = x + ε qq:[0,)Rq(0)=limtq(t)=0

x=x+εq

gdzie jest parametrem. Podłącz ten termin do zmaksymalizowanego hamiltonianu, który daje ρ V ( x + ε q ) = H ( x + ε q , u , V ( x + ε q ) ) .εR

ρV(x+εq)=H(x+εq,u,V(x+εq)).

Przy mamy optymalne rozwiązanie. Zatem różnicuj w stosunku do aby uzyskać warunek pierwszego rzędu ε ρ V q = H x q + H V V q .ε=0ε

ρVq=Hxq+HVVq.

Teraz zdefiniuj zmienną sąsiadującą za pomocą

λ=V(x).

Zróżnicuj w czasie

λ˙=Vx˙.

i zauważ, że

HV=f(x,u)=x˙.

Podłącz wszystko do fokusa, który daje

ρλ=Hx+λ˙.

To tyle. Tak więc rozwiązanie HJB jest rzeczywiście konieczne i wystarczające (tutaj pominięte) dla optymalności. Ktoś powinien dodać go do wiki. Może zaoszczędzić czas ludziom myślącym o takich problemach (chyba nie będzie dużo).

Jednak brakuje warunku poprzeczności .

limteρtλ(t)=0

II Próba

Zdefiniuj funkcjonalność wypłaty

J(u):=0eρtF(x,u)dt

Zauważ, że z definicji . Dodaj neutralny termin do wypłaty funtional

0eρtλ[f(x,u)x˙]dt=0
x˙=f(x,u)
J(u)=0eρt[F(x,u)+λf(x,u)]dt0eρtλx˙dt=0eρtH(x,u,λ)0eρtλx˙dt

Integracja przez części poprawnego terminu daje

0eρtλx˙dt=[eρtλ(t)x(t)]00eρtx(λ˙ρλ)dt

Ponownie podstaw ten termin

J(u)=0eρt[H(x,u,λ)+x(λ˙ρλ)]dtlimteρtλ(t)x(t)+λ(0)x(0)

Zdefiniuj

x=x+εqu=u+εp

co daje

J(ε)=0eρt[H(x+εq,u+εp,λ)+(x+εq)(λ˙ρλ)]dtlimteρtλ(t)[x(t)+εq(t)]+λ(0)x(0)

FOC dla maksymalnejJε=0

Jε=0eρt[Hxq+Hup+q(λ˙ρλ)]dtlimteρtλ(t)q(t)=0

Ponieważ i są nieograniczone, musimy mieć qp

Hu=0Hx=ρλλ˙limteρtλ(t)=0

czy określiłeś już niezbędne i wystarczające warunki?
Jamzy

W jakim kontekście gospodarczym to się pojawia?
Stan Shunpike,


1
Myślę, że ten wątek jest bardziej odpowiedni dla math.stackexchange.com, ponieważ nie jest tak naprawdę powiązany z econ. Mod może to przenieść.
nieświadomy

Nie jestem pewien, o co tu pytamy: jeśli rozwiązanie BJJ przez Hertta Bertsekas jest wystarczające , nie musisz „martwić się dodatkowymi warunkami optymalizacyjnymi”. „Tylko wystarczające” w stosunku do „konieczne i wystarczające” powstałoby, gdyby HJB nie zostało rozwiązane - w takim przypadku można by powiedzieć „nie oznacza to, że nie ma rozwiązania”. Nawiasem mówiąc, wasze Próby I i II są tutaj cenną treścią - pierwsza pokazuje link między HJB i Optymalną Kontrolą, druga pokazuje, w jaki sposób można uzyskać FOC Kontroli Optymalnej.
Alecos Papadopoulos

Odpowiedzi:


1

(Być może należy to uznać za komentarz.)

Jeśli rozwiązałeś równanie HJB, wystarczy uzyskać optymalne rozwiązanie. Nie musisz więc „martwić się żadnymi innymi warunkami optymalizacyjnymi”, które, jak sądzę, wydają się odpowiadać na twoje pytanie.

Wygląda na to, że martwisz się o „niezbędny” element twierdzenia. Konieczność strony stwierdzenia jest następująca: jeśli istnieje optymalne rozwiązanie, musi istnieć rozwiązanie równania HJB.

Nie pracowałem z tym konkretnym problemem, ale ogólnie odpowiedź jest taka, że ​​nie spodziewamy się, że będziemy mieli rozróżnialną funkcję V. Dlatego nie mamy rozwiązania równania, jak jest powiedziane. Zamiast tego musimy spojrzeć na pochodne uogólnione i przekształcić równanie HJB w nierówność. W takim przypadku możesz otrzymać „roztwór lepkości”. Jeśli rozszerzymy się na stosowanie uogólnionych instrumentów pochodnych, może być możliwe udowodnienie, że takie rozwiązanie zawsze istnieje. Spoglądając na twoje dowody, nie pomogą one w warunkach konieczności, ponieważ zakładasz zróżnicowanie.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.