Łatwo zrozumiały argument, że normalnych metod Runge – Kutta nie można uogólnić na SDE?

Naiwnym podejściem do rozwiązywania stochastycznych równań różniczkowych (SDE) byłoby:

zastosować regularną, wieloetapową metodę Runge – Kutta,
stosować wystarczająco drobną dyskretyzację leżącą u podstaw procesu Wiener,
uczyń każdy krok metody Runge – Kutta analogicznym do metody Eulera – Maruyamy.

To się nie udaje na wielu poziomach i rozumiem dlaczego. Jednak teraz mam za zadanie przekonać ludzi o tym fakcie, którzy na początku mają niewielką wiedzę na temat metod Runge – Kutty i stochastycznych równań różniczkowych. Wszystkie argumenty, których jestem świadomy, są niczym, z czym nie mogę się dobrze komunikować w danym kontekście. Dlatego szukam łatwo zrozumiałego argumentu, że powyższe podejście jest skazane na niepowodzenie.

runge-kutta education stochastic-ode

— Wrzlprmft
źródło

@BiswajitBanerjee: Mam tego świadomość i rzeczywiście nie twierdzę, że zrozumiałem to w najgłębszym możliwym zakresie. Nadal nie sądzę, że podanie wszystkich argumentów tutaj poprawi odpowiedź, ponieważ ci, którzy mogą udzielić odpowiedzi, są tego świadomi. Co więcej, ten przypadek jest nieco szczególny, ponieważ polega na wyjaśnieniu, dlaczego coś nie działa, na co oczywiście jest wiele odpowiedzi, zaczynając od „przetestowaliśmy to i nie powiodło się”.

— Wrzlprmft

Nie mówiłem o ekspertach od stochastycznych ODE, ale o przeciętnym czytelniku, który rozumie zmienne losowe i RK, kiedy powiedziałem „my”. Nie będę ci jednak przeszkadzać, jeśli nie będziesz chciał podać przykładu swojego myślenia.

— Biswajit Banerjee

Weźmy stochastyczne równanie różniczkowe:

X_{t} = fa (t, X_{t}) re t + sol (t, X_{t}) re {W.}_{t}

$X_t = f(t,X_t)dt + g(t,X_t)dW_t$

Oto kilka różnych argumentów, które prowadzą do intuicyjnego zrozumienia, dlaczego matematyka stojąca za metodami wyższego rzędu jest konieczna. Będę dyskutować w kategoriach silnego porządku, co jest równoznaczne z powiedzeniem „dla danego ruchu Browna $W(t)$ , jak dobrze całka numeryczna rozwiązuje tę trajektorię? "

Regularność równania

Przede wszystkim proponowana metoda nie uwzględnia tego faktu $X_t$ nie podlega ciągłej różnicowaniu. W rzeczywistości możesz użyć wyników Rosslera, aby pokazać, że rozszerzenie normalnych metod RK, tak jak sugerowałeś, da zbieżne metody, ale będą miały tylko silną kolejność 0,5. Powodem jest to, że zostały one uzyskane za pomocą rachunku różniczkowego i całkowego $X_t$ być zróżnicowanym i mieć serial Taylora. Ruch Browna nie jest rozróżnialny, a zamiast tego ma ciągłość Posiadacza wynoszącą $\alpha < 0.5$ tak jak

Jednak, podobnie jak w teorii perturbacji, procesy, które nie są wystarczająco regularne, nie mogą być rozszerzane pod względem szeregu Taylora, ale z regularnością Holdera $\alpha$ można je rozszerzyć w zakresie serii Puiseux o warunki $\alpha$ , tj. dla ruchu Browna istnieje rozszerzenie pojęcia serii Taylora, które jest rozszerzone w kategoriach czegoś podobnego $\frac{1}{2}$ pochodne. Podobnie jak w rachunku regularnym, pierwszy termin jest „terminem liniowym”, tj. Zmianą $dt$ do $\Delta t$ i $dW_t$ do $N(0,dt)$ i masz coś dobrego. Właśnie dlatego metody, w tym takie jak Euler-Maruyama, są zbieżne z silnym porządkiem 0,5: poprawny jest pierwszy termin z serii Taylora. Jednak warunki wyższego rzędu wymagają korekty tego faktu $X_t$ nie jest stale różnicowalny, dlatego normalne metody tego nie robią.

Natychmiastowe korelacje i całki iterowane

To szybkie heurystyczne wyjaśnienie, ale jest w tym coś więcej. Spójrzmy na kilka innych szczegółów. Seria Taylora to nie tylko ekspansja w zakresie instrumentów pochodnych, ale można ją również traktować jako liczbę, którą należy zintegrować z warunkami wyższego rzędu. $X_t = X_0 + \Delta t f(t,X_t)$ integruje się raz. Ale jeśli dodasz $dt^2$ termin, aby uzyskać właściwe jednostki, należy wykonać podwójne całki. $dt^2$ łatwo jest zintegrować dwa razy, ale co jest $dW_t^i dW_t^j$ ? Są to natychmiastowe korelacje między ruchami Browna. Musisz to wiedzieć, aby obliczyć całkę podwójną. Jeśli patrzysz tylko na średnie, możesz to wyciąć. Ale na każdej trajektorii istnieją korelacje między różnymi ruchami Browna układu równań różniczkowych. Zakładając, że nie ma korelacji między ruchami Browna, jest innym sposobem scharakteryzowania rozszerzenia metod deterministycznych Maruyamy, ale aby uzyskać kolejny termin z szeregu (termin 1.0), trzeba to zrobić poprawnie. Korekta Milsteina precyzyjnie dodaje te warunki korelacji. Gdy hałas jest ukośny, jest to równoznaczne ze zrozumieniem, że nie ma korelacji poza samym sobą, ale korelacja z samym sobą jest tylko wariancją, która jest $dt$ , więc musi być korekta $dW_t^2$ vs $dt$ , tj $dW^2 - dt$ . Gdy występuje hałas nieprzekątny, te całki podwójne muszą zostać aproksymowane, aby uwzględnić chwilowe korelacje ruchów Browna, a powszechnym przybliżeniem jest tutaj aproksymacja Wiktorssona, co powoduje, że symulacje hałasu nieprzekątnego są tak skomplikowane (ponieważ nie ma rozwiązania analitycznego nawet dla całek podwójnych).

Średni efekt dyfuzji

Ale to prowadzi nas do innego sposobu myślenia o problemie. Myśląc o rozszerzeniu w kategoriach momentów, w pewnym sensie heurystycznym termin pierwszego rzędu, silny porządek 1.0 lub $\mathcal{O}(\Delta t)$ termin, czy średnie ruchy muszą być prawidłowe, prawda? Oto pytanie: jaka jest pochodna $g$ w samą porę? Najprostszą odpowiedzią byłoby zdefiniowanie pochodnej w normalny sposób:

ale tak naprawdę nie jest to poprawne podczas stawiania $g$ w kontekście SDE. Jeśli pomyślimy o pochodnej $g$ pod względem tego, jak bardzo się zmienia $X_t$ , nie zawsze wskazuje on w tym samym kierunku, ponieważ zawsze jest mnożony przez ten losowy czynnik $dW_t$ . Pytanie brzmi: jaki jest tego średni rozmiar $dW_t$ ? Dyfuzja zmienia się średnio w skali $\sqrt{\Delta t}$ , więc w rzeczywistości wpływa to na to $g(t,X_t)$ ma bardziej jak

\frac{sol (t + Δ t, X_{t + Δ t}) - sol (t, X_{t})}{\sqrt{Δ t}}

$\frac{g(t+\Delta t,X_{t+\Delta t}) - g(t,X_t)}{\sqrt{\Delta t}}$

Możesz bardziej rygorystycznie pokazać, że pochodna numeryczna powinna być tym $X_{t + \Delta t} = X_t + g(t,X_t)\sqrt{\Delta t}$ jako „predyktor do przodu w czasie”.

Ale intuicyjnie, to tylko zrozumienie średniego efektu, który $g$ ma na trajektorii $X_t$ : o $g(t,X_t)\sqrt{\Delta t}$ . W metodzie Runge-Kutta wewnętrzny krok na raz $c_i$ ma być przybliżeniem wartości $X_{t + c_i\Delta t}$ , ale nawet z tego szybkiego fizycznego heurystycznego argumentu dotyczącego dyfuzji widzimy, że łatwe rozszerzenie metody Runge-Kutta jest już średnio złe: jest błędne o około $g(t,X_t)\sqrt{c_i \Delta t}$ co jest innym sposobem wyjaśnienia, dlaczego jest to co najwyżej silna kolejność 0,5 (zaskakujące jest to, że metody nadal działają! Ale można to przypisać temu, że suma etapów w metodzie RK musi wynosić 1, więc ten błąd jest nieco anulowany na zewnątrz). Co ciekawe, ten heurystyczny argument jest dość głęboki, ponieważ stochastyczne metody Runge-Kutta wyższego rzędu, takie jak te z powodu Rosslera, mają poprawki ściśle związane z $g(t,X_t)\sqrt{\Delta t}$ .

Wniosek

Są to 3 różne heurystyczne sposoby zrozumienia, dlaczego wyższe rzędy muszą obejmować rachunek stochastyczny. Wyższe rzędy muszą uwzględniać fakt, że regularność Posiadacza wynosi 1/2, a zatem istnieją dodatkowe warunki w szeregu Taylora, muszą uwzględniać natychmiastowe korelacje i muszą co najmniej uwzględniać średnie skutki terminu dyfuzji . W przeciwnym razie są skazani na niepoprawność $\mathcal{O}(\Delta t)$ , a zamiast tego spełniają tylko „liniowe przybliżenie” pierwszego terminu i odbierają $\mathcal{O}(\sqrt{\Delta t})$ .

Oczywiście, w niektórych okolicznościach istnieją sposoby na znalezienie odpowiednich uogólnień, które dają metody wyższego rzędu, ale zostawię to jako wiszącą nić, ponieważ to jest jeden punkt pracy, który wkrótce przedstawię. Mam nadzieję że to pomoże.

— Chris Rackauckas
źródło