Rozważ następujące równanie różniczkowe gdzie jest stanem, a zmienną kontrolną. Rozwiązanie podano przez gdzie to podany stan początkowy.
Teraz rozważ następujący program gdzie \ rho> 0 oznacza preferencję czasową, V (\ cdot) jest wartością, a F (\ cdot) funkcja celu. Klasycznym zastosowaniem ekonomicznym jest model optymalnego wzrostu Ramsey-Cass-Koopmansa. Równanie Hamiltona-Jacobiego-Bellmana podaje: \ begin {align} \ rho V (x) = \ max_u [F (x, u) + V '(x) f (x, u)], \ quad \ forall t \ w [0, \ infty). \ end {align}
Powiedzieć ja rozwiązał HJB dla . Optymalną kontrolę daje następnie
Artykuł na wiki mówi
... ale rozwiązane w całej przestrzeni stanów równanie HJB jest warunkiem koniecznym i wystarczającym do uzyskania optymalnego.
W Bertsekas (2005) Programowanie dynamiczne i kontrola optymalna , tom 1, wydanie trzecie, w Propozycji 3.2.1 stwierdza, że rozwiązanie dla jest optymalną funkcją kosztu przejścia, a związane z nią jest optymalne. Jednak jednoznacznie deklaruje to jako twierdzenie wystarczalności.
Właściwie chcę tylko upewnić się, że jeśli rozwiążę HJB i odzyskam powiązany stan i kontroluję trajektorie, nie muszę się martwić żadnymi dodatkowymi warunkami optymalizacyjnymi.
Rozwiązanie
Próbuję
Myślę, że udało mi się wyprowadzić niezbędne warunki z zasady maksimum na podstawie samego równania HJB.
Zdefiniuj hamiltonian
wtedy mamy
czyli
Zdefiniuj dowolną funkcję pomocą . Teraz napraw q ( 0 ) = lim t → ∞ q ( t ) = 0 x = x ∗ + ε q
gdzie jest parametrem. Podłącz ten termin do zmaksymalizowanego hamiltonianu, który daje ρ V ( x ∗ + ε q ) = H ( x ∗ + ε q , u ∗ , V ′ ( x ∗ + ε q ) ) .
Przy mamy optymalne rozwiązanie. Zatem różnicuj w stosunku do aby uzyskać warunek pierwszego rzędu ε ρ V ′ q = H x q + H V ′ V ″ q .
Teraz zdefiniuj zmienną sąsiadującą za pomocą
Zróżnicuj w czasie
i zauważ, że
Podłącz wszystko do fokusa, który daje
To tyle. Tak więc rozwiązanie HJB jest rzeczywiście konieczne i wystarczające (tutaj pominięte) dla optymalności. Ktoś powinien dodać go do wiki. Może zaoszczędzić czas ludziom myślącym o takich problemach (chyba nie będzie dużo).
Jednak brakuje warunku poprzeczności .
II Próba
Zdefiniuj funkcjonalność wypłaty
Zauważ, że z definicji . Dodaj neutralny termin do wypłaty funtional
Integracja przez części poprawnego terminu daje
Ponownie podstaw ten termin
Zdefiniuj
co daje
FOC dla maksymalnej
Ponieważ i są nieograniczone, musimy mieć