Oto odpowiedź nieco z lewej strony, która dotyczy tylko części „najlepszych praktyk dotyczących łączenia wielu modeli” w pytaniu. To w zasadzie dokładnie moja praca magisterska, tyle że mam do czynienia ze złożonymi, wysoce nieliniowymi modelami, które wykazują chaos i hałas - modele klimatyczne. Prawdopodobnie nie będzie to miało szerokiego zastosowania w wielu dziedzinach, ale może być przydatne w ekologii lub ekonometrii.
Do niedawna w społeczności zajmującej się modelowaniem klimatu modele były w dużej mierze po prostu rozbite razem w nieważonej średniej (zwykle po korekcie błędu systematycznego polegającej na usunięciu średniej modelu dla części lub całości okresu próby). Jest to w zasadzie to, co zrobił IPCC dla 4. raportu oceniającego (4AR) i poprzednich raportów.
Jest to mniej więcej przykład szkoły łączenia zespołów „ prawda plus błąd ”, w której domyślnie lub jawnie zakłada się, że serie obserwacyjne (np. Temperatura globalna, lokalne opady itp.) Są prawdziwe i że jeśli pobierzesz wystarczającą ilość próbek (np. uruchomione modele), hałas w uruchomionych modelach zostanie anulowany (patrz (1)).
Niedawno zastosowano metody łączenia modeli na podstawie ważenia wydajności . Ponieważ modele klimatyczne są tak hałaśliwe i mają tak wiele zmiennych i parametrów, jedynymi sposobami oceny wydajności (o których wiem) są przyjmowanie kowariancji lub przyjmowanie MSE między danymi wyjściowymi modelu a obserwowanymi szeregami czasowymi. Modele można następnie połączyć, ważąc średnią na podstawie tej miary. Jest dobry przegląd tego w (2).
Jednym z założeń tej metody łączenia symulacji jest założenie, że wszystkie modele są w miarę niezależne - jeśli niektóre byłyby wysoce zależne, zniekształcałyby średnią. To założenie było dość uczciwe dla zestawu danych użytego dla 4AR ( CMIP3 , ponieważ ten zestaw danych składał się z kilku serii modeli z wielu grup modelowania (z drugiej strony, kod jest wspólny dla społeczności zajmującej się modelowaniem, więc nadal może istnieć pewna współzależność Ciekawe spojrzenie na ten temat znajduje się w (3) Zestaw danych do następnego raportu oceniającego, CMIP5, nie ma tego nieco losowego atrybutu - niektóre zespoły modelujące będą składać kilka przebiegów, a niektóre setki. Zespoły pochodzące z różnych zespołów mogą być wytwarzane przez peturbację stanu początkowego lub przez zmiany w fizyce modelu i parametryzacji. Ponadto, ten super zestaw nie jest próbkowany w żaden systematyczny sposób - tylko ten, kto kiedykolwiek przynosi dane, jest akceptowany (w granicach rozsądku). Jest to znane w tej dziedzinie jako „ zespół okazji ”. Istnieje spora szansa, że użycie nieważonego środka na takim zespole spowoduje poważne odchylenie w stosunku do modeli z większą liczbą przebiegów (ponieważ chociaż istnieją setki przebiegów, prawdopodobnie istnieje znacznie mniejsza liczba naprawdę niezależnych przebiegów).
Mój przełożony w tej chwili recenzuje artykuł opisujący proces łączenia modeli obejmujący wydajność ORAZ ważenie niezależności . Dostępny jest streszczenie artykułu konferencyjnego (4), opublikuję link do artykułu, gdy zostanie opublikowany (powolny proces, nie wstrzymuj oddechu). Zasadniczo w niniejszym dokumencie opisano proces polegający na uwzględnieniu kowariancji błędów modelu (model-obs) i obciążeniu modeli o wysokiej kowariancji ze wszystkimi innymi modelami (tj. Modelami o wysoce zależnych błędach). Obliczana jest również wariancja błędu modelu i używana jako składnik ważenia wydajności.
Warto również zauważyć, że modelowanie klimatu jest oczywiście pod ogromnym wpływem kaprysów modelowania numerycznego w ogóle. Jest coś, co nazywa się „testem śmiechu” - jeśli skończysz z modelem, który sugeruje, że globalne średnie temperatury będą do 2050 r. + 20 ° C, po prostu wyrzucisz je, ponieważ jest to wyraźnie nieistotne fizycznie. Oczywiście ten rodzaj testu jest dość subiektywny. Nie wymagałem tego jeszcze, ale spodziewam się tego w najbliższej przyszłości.
Takie jest obecnie moje rozumienie kombinacji modeli stanów w mojej dziedzinie. Oczywiście wciąż się uczę, więc jeśli trafię na coś wyjątkowego, wrócę i zaktualizuję tę odpowiedź.
(1) Tebaldi, C. i Knutti, R., 2007. Zastosowanie zespołu wielu modeli w probabilistycznych prognozach klimatycznych. Transakcje filozoficzne Royal Society A: Mathematical, Physical and Engineering Sciences, 365 (1857), s. 2053–2075.
(2) Knutti, R. i in., 2010. Spotkanie ekspertów IPCC na temat oceny i łączenia wielomodelowych prognoz klimatycznych.
(3) Masson, D. & Knutti, R., 2011. Genealogia modeli klimatycznych. Geofizy. Res. Lett, 38 (8), str. L08703.
(4) Abramowitz, G. i Bishop, C., 2010. Definiowanie i ważenie zależności modelu w prognozowaniu zespołu. W AGU Fall Meeting Abstracts. p. 07.