Rozwiązywanie równania Hamiltona-Jacobiego-Bellmana; konieczne i wystarczające dla optymalności?

Rozważ następujące równanie różniczkowe gdzie jest stanem, a zmienną kontrolną. Rozwiązanie podano przez gdzie to podany stan początkowy.

\begin{aligned} \dot{x} (t) = f (x (t), u (t)) \end{aligned}

$\begin{align} \dot x(t)=f(x(t),u(t)) \end{align}$

x

$x$

u

$u$

\begin{aligned} x (t) = x_{0} + \int_{0}^{t} f (x (s), u (s)) d s . \end{aligned}

$\begin{align} x(t)=x_0 + \int^t_0f(x(s),u(s))ds. \end{align}$

x_{0} := x (0)

$x_0:=x(0)$

Teraz rozważ następujący program gdzie oznacza preferencję czasową, jest wartością, a funkcja celu. Klasycznym zastosowaniem ekonomicznym jest model optymalnego wzrostu Ramsey-Cass-Koopmansa. Równanie Hamiltona-Jacobiego-Bellmana podaje:

\begin{aligned} V (x_{0}) := max_{u} \int_{0}^{\infty} e^{- ρ t} F (x (t), u (t)) d t \\ s . t . & \dot{x} (t) = f (x (t), u (t)) \\ x (0) = x_{0} \end{aligned}

$\begin{align} &V(x_0) := \max_u \int^\infty_0 e^{-\rho t}F(x(t),u(t))dt\\ s.t.~&\dot x(t)=f(x(t),u(t))\\ &x(0) = x_0 \end{align}$

ρ > 0

$\rho > 0$

V (\cdot)

$V(\cdot)$

F (\cdot)

$F(\cdot)$

\begin{aligned} ρ V (x) = max_{u} [F (x, u) + V^{'} (x) f (x, u)], \forall t \in [0, \infty) . \end{aligned}

$\begin{align} \rho V(x)=\max_u [F(x,u) + V'(x)f(x,u)],\quad \forall t\in[0,\infty). \end{align}$

Powiedzieć ja rozwiązał HJB dla $V$ . Optymalną kontrolę daje następnie

\begin{aligned} u^{*} = \arg max_{u} [F (x, u) + V^{'} (x) f (x, u)] . \end{aligned}

$\begin{align} u^*=\arg\max_u [F(x,u) + V'(x)f(x,u)]. \end{align}$ Zdobędę optymalne trajektorie dla stanu i kontroli

{(x^{*} (t), u^{*} (t)) : t \in [0, \infty)}

$\{(x^*(t),u^*(t)):t\in[0,\infty)\}$ .

Artykuł na wiki mówi

... ale rozwiązane w całej przestrzeni stanów równanie HJB jest warunkiem koniecznym i wystarczającym do uzyskania optymalnego.

W Bertsekas (2005) Programowanie dynamiczne i kontrola optymalna , tom 1, wydanie trzecie, w Propozycji 3.2.1 stwierdza, że rozwiązanie dla $V$ jest optymalną funkcją kosztu przejścia, a związane z nią $u^*$ jest optymalne. Jednak jednoznacznie deklaruje to jako twierdzenie wystarczalności.

Właściwie chcę tylko upewnić się, że jeśli rozwiążę HJB i odzyskam powiązany stan i kontroluję trajektorie, nie muszę się martwić żadnymi dodatkowymi warunkami optymalizacyjnymi.

Rozwiązanie

Próbuję

Myślę, że udało mi się wyprowadzić niezbędne warunki z zasady maksimum na podstawie samego równania HJB.

Zdefiniuj hamiltonian

\begin{aligned} H (x, u, V^{'} (x)) := F (x, u) + V^{'} (x) f (x, u) \end{aligned}

$\begin{align} H(x,u,V'(x)) := F(x,u) + V'(x)f(x,u) \end{align}$

wtedy mamy

\begin{aligned} ρ V (x) = max_{u} H (x, u, V^{'} (x)) \end{aligned}

$\begin{align} \rho V(x)=\max_u H(x,u,V'(x)) \end{align}$

czyli

\begin{aligned} ρ V (x) = H (x, u^{*}, V^{'} (x)) . \end{aligned}

$\begin{align} \rho V(x)= H(x,u^*,V'(x)). \end{align}$

Zdefiniuj dowolną funkcję pomocą . Teraz napraw $q:[0,\infty)\to\mathbb{R}$ $q(0)=\lim_{t\to\infty} q(t)=0$

\begin{aligned} x = x^{*} + ε q \end{aligned}

$\begin{align} x = x^*+\varepsilon q \end{align}$

gdzie jest parametrem. Podłącz ten termin do zmaksymalizowanego hamiltonianu, który daje $\varepsilon\in\mathbb{R}$

\begin{aligned} ρ V (x^{*} + ε q) = H (x^{*} + ε q, u^{*}, V^{'} (x^{*} + ε q)) . \end{aligned}

$\begin{align} \rho V(x^*+\varepsilon q)= H(x^*+\varepsilon q,u^*,V'(x^*+\varepsilon q)). \end{align}$

Przy mamy optymalne rozwiązanie. Zatem różnicuj w stosunku do aby uzyskać warunek pierwszego rzędu $\varepsilon = 0$ $\varepsilon$

\begin{aligned} ρ V^{'} q = H_{x} q + H_{V^{'}} V^{″} q . \end{aligned}

$\begin{align} \rho V'q = H_x q + H_{V'}V''q. \end{align}$

Teraz zdefiniuj zmienną sąsiadującą za pomocą

\begin{aligned} λ = V^{'} (x) . \end{aligned}

$\begin{align} \lambda = V'(x). \end{align}$

Zróżnicuj w czasie

\begin{aligned} \dot{λ} = V^{″} \dot{x} . \end{aligned}

$\begin{align} \dot \lambda = V''\dot x. \end{align}$

i zauważ, że

\begin{aligned} H_{V^{'}} = f (x, u) = \dot{x} . \end{aligned}

$\begin{align} H_{V'} = f(x,u) = \dot x. \end{align}$

Podłącz wszystko do fokusa, który daje

\begin{aligned} ρ λ = H_{x} + \dot{λ} . \end{aligned}

$\begin{align} \rho \lambda = H_x + \dot \lambda. \end{align}$

To tyle. Tak więc rozwiązanie HJB jest rzeczywiście konieczne i wystarczające (tutaj pominięte) dla optymalności. Ktoś powinien dodać go do wiki. Może zaoszczędzić czas ludziom myślącym o takich problemach (chyba nie będzie dużo).

Jednak brakuje warunku poprzeczności .

\begin{aligned} lim_{t \to \infty} e^{- ρ t} λ (t) = 0 \end{aligned}

$\begin{align} \lim_{t\to\infty} e^{-\rho t}\lambda(t) = 0 \end{align}$

II Próba

Zdefiniuj funkcjonalność wypłaty

\begin{aligned} J (u) := \int_{0}^{\infty} e^{- ρ t} F (x, u) d t \end{aligned}

$\begin{align} J(u):=\int^\infty_0 e^{-\rho t}F(x,u)dt \end{align}$

Zauważ, że z definicji . Dodaj neutralny termin do wypłaty funtional

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ [f (x, u) - \dot{x}] d t = 0 \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda[f(x,u) - \dot x]dt} = 0 \end{align}$

\dot{x} = f (x, u)

$\dot x = f(x,u)$

\begin{aligned} J (u) & = \int_{0}^{\infty} e^{- ρ t} [F (x, u) + λ f (x, u)] d t - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \\ = \int_{0}^{\infty} e^{- ρ t} H (x, u, λ) - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \end{aligned}

$\begin{align} J(u)&=\int^\infty_0 e^{-\rho t}[F(x,u)+\lambda f(x,u)]dt - \int^\infty_0{e^{-\rho t}\lambda\dot xdt}\\ &=\int^\infty_0 e^{-\rho t}H(x,u,\lambda) - \int^\infty_0{e^{-\rho t}\lambda\dot xdt} \end{align}$

Integracja przez części poprawnego terminu daje

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t = [e^{- ρ t} λ (t) x (t)]_{0}^{\infty} - \int_{0}^{\infty} e^{- ρ t} x (\dot{λ} - ρ λ) d t \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda\dot xdt} = [e^{-\rho t}\lambda(t)x(t)]^\infty_0 - \int^\infty_0{e^{-\rho t}x(\dot \lambda-\rho\lambda)dt} \end{align}$

Ponownie podstaw ten termin

\begin{aligned} J (u) = \int_{0}^{\infty} e^{- ρ t} [H (x, u, λ) + x (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) x (t) + λ (0) x (0) \end{aligned}

$\begin{align} J(u)=\int^\infty_0 e^{-\rho t}[H(x,u,\lambda) + x(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)x(t) + \lambda(0)x(0) \end{align}$

Zdefiniuj

\begin{aligned} x & = x^{*} + ε q \\ u & = u^{*} + ε p \end{aligned}

$\begin{align} x &= x^*+\varepsilon q\\ u &= u^*+\varepsilon p \end{align}$

co daje

\begin{aligned} J (ε) = \int_{0}^{\infty} e^{- ρ t} [H (x^{*} + ε q, u^{*} + ε p, λ) + (x^{*} + ε q) (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) [x^{*} (t) + ε q (t)] + λ (0) x (0) \end{aligned}

$\begin{align} J(\varepsilon)=\int^\infty_0 e^{-\rho t}[H(x^*+\varepsilon q,u^*+\varepsilon p,\lambda) + (x^*+\varepsilon q)(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)[x^*(t)+\varepsilon q(t)] + \lambda(0)x(0) \end{align}$

FOC dla maksymalnej $J_\varepsilon = 0$

\begin{aligned} J_{ε} = \int_{0}^{\infty} e^{- ρ t} [H_{x} q + H_{u} p + q (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) q (t) = 0 \end{aligned}

$\begin{align} J_\varepsilon=\int^\infty_0 e^{-\rho t}[H_x q + H_u p + q(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)q(t) = 0 \end{align}$

Ponieważ i są nieograniczone, musimy mieć $q$ $p$

\begin{aligned} H_{u} & = 0 \\ H_{x} & = ρ λ - \dot{λ} \\ lim_{t \to \infty} e^{- ρ t} λ (t) & = 0 \end{aligned}

$\begin{align} H_u &= 0\\ H_x &= \rho\lambda - \dot \lambda\\ \lim_{t\to\infty}e^{-\rho t}\lambda(t) &= 0 \end{align}$

mathematical-economics reference-request dynamic-programming

— bezradny
źródło

czy określiłeś już niezbędne i wystarczające warunki?

— Jamzy

W jakim kontekście gospodarczym to się pojawia?

— Stan Shunpike,

Model Ramseya, na przykład cer.ethz.ch/resec/people/tsteger/Ramsey_Model.pdf

— nieświadomy

Myślę, że ten wątek jest bardziej odpowiedni dla math.stackexchange.com, ponieważ nie jest tak naprawdę powiązany z econ. Mod może to przenieść.

— nieświadomy

Nie jestem pewien, o co tu pytamy: jeśli rozwiązanie BJJ przez Hertta Bertsekas jest wystarczające , nie musisz „martwić się dodatkowymi warunkami optymalizacyjnymi”. „Tylko wystarczające” w stosunku do „konieczne i wystarczające” powstałoby, gdyby HJB nie zostało rozwiązane - w takim przypadku można by powiedzieć „nie oznacza to, że nie ma rozwiązania”. Nawiasem mówiąc, wasze Próby I i II są tutaj cenną treścią - pierwsza pokazuje link między HJB i Optymalną Kontrolą, druga pokazuje, w jaki sposób można uzyskać FOC Kontroli Optymalnej.

— Alecos Papadopoulos

(Być może należy to uznać za komentarz.)

Jeśli rozwiązałeś równanie HJB, wystarczy uzyskać optymalne rozwiązanie. Nie musisz więc „martwić się żadnymi innymi warunkami optymalizacyjnymi”, które, jak sądzę, wydają się odpowiadać na twoje pytanie.

Wygląda na to, że martwisz się o „niezbędny” element twierdzenia. Konieczność strony stwierdzenia jest następująca: jeśli istnieje optymalne rozwiązanie, musi istnieć rozwiązanie równania HJB.

Nie pracowałem z tym konkretnym problemem, ale ogólnie odpowiedź jest taka, że nie spodziewamy się, że będziemy mieli rozróżnialną funkcję V. Dlatego nie mamy rozwiązania równania, jak jest powiedziane. Zamiast tego musimy spojrzeć na pochodne uogólnione i przekształcić równanie HJB w nierówność. W takim przypadku możesz otrzymać „roztwór lepkości”. Jeśli rozszerzymy się na stosowanie uogólnionych instrumentów pochodnych, może być możliwe udowodnienie, że takie rozwiązanie zawsze istnieje. Spoglądając na twoje dowody, nie pomogą one w warunkach konieczności, ponieważ zakładasz zróżnicowanie.

— Brian Romanchuk
źródło