Pracuję nad problemem wnioskowania o dużych wymiarach (około 2000 parametrów modelu), dla którego jesteśmy w stanie solidnie przeprowadzić oszacowanie MAP poprzez znalezienie globalnego maksimum log-tylnego przy użyciu kombinacji optymalizacji opartej na gradiencie i algorytmu genetycznego.
Bardzo chciałbym mieć możliwość oszacowania niepewności parametrów modelu oprócz znalezienia oszacowania MAP.
Jesteśmy w stanie efektywnie obliczyć gradient log-tylny w odniesieniu do parametrów, więc długoterminowo zamierzamy użyć Hamiltonian MCMC do wykonania próbkowania, ale na razie jestem zainteresowany szacunkami nieopartymi na próbkach.
Jedyne podejście, jakie znam, to obliczenie odwrotności Hesji w trybie w celu przybliżenia tylnej jako normalnej wielowymiarowej, ale nawet to wydaje się niemożliwe dla tak dużego układu, ponieważ nawet jeśli elementów Hesji jestem pewien, że nie mogliśmy znaleźć jego odwrotności.
Czy ktoś może zasugerować, jakie metody są zwykle stosowane w takich przypadkach?
Dzięki!
EDYCJA - dodatkowe informacje o problemie
Tło
To jest odwrotny problem związany z dużym eksperymentem fizyki. Mamy trójkątną siatkę 2D, która opisuje niektóre pola fizyczne, a naszymi parametrami modelu są fizyczne wartości tych pól na każdym wierzchołku siatki. Siatka ma około 650 wierzchołków, a my modelujemy 3 pola, stąd nasze parametry 2000 modeli.
Nasze dane eksperymentalne pochodzą z instrumentów, które nie mierzą bezpośrednio tych pól, ale wielkości, które są skomplikowanymi nieliniowymi funkcjami pól. Dla każdego z różnych instrumentów mamy model do przodu, który odwzorowuje parametry modelu na przewidywania danych eksperymentalnych, a porównanie prognozy i pomiaru daje logarytmiczne prawdopodobieństwo.
Następnie sumujemy prawdopodobieństwa dziennika z wszystkich tych różnych instrumentów, a także dodajemy wartości wcześniejszego dziennika, które nakładają pewne fizyczne ograniczenia na pola.
W związku z tym wątpię, by ten „model” należał do kategorii - nie mamy wyboru, czym jest model, jest on podyktowany tym, jak działają rzeczywiste instrumenty, które zbierają nasze dane eksperymentalne.
Zestaw
danych Zestaw danych składa się z 500 x 500 zdjęć, a dla każdej kamery jest jeden obraz, więc całkowita liczba punktów danych wynosi 500 x 500 x = .
Model
błędów Obecnie bierzemy wszystkie błędy w tym problemie za Gaussa. W pewnym momencie mógłbym spróbować przejść do modelu błędu ucznia-t tylko dla pewnej dodatkowej elastyczności, ale wydaje się, że nadal działa dobrze tylko z Gaussianami.
Przykład prawdopodobieństwa
Jest to eksperyment z fizyką plazmy, a ogromna większość naszych danych pochodzi z kamer skierowanych na plazmę z określonymi filtrami przed obiektywami, aby patrzeć tylko na określone części spektrum światła.
Aby odtworzyć dane, należy wykonać dwa kroki; najpierw musimy zamodelować światło pochodzące z plazmy na siatce, a następnie modelować to światło z powrotem do obrazu z kamery.
Modelowanie światła pochodzącego z plazmy niestety zależy od tego, jakie są efektywne współczynniki szybkości, które mówią, ile światła jest emitowane przez różne procesy w danych polach. Stawki te są przewidywane przez niektóre drogie modele numeryczne, więc musimy przechowywać ich wyniki na siatkach, a następnie interpolować, aby wyszukać wartości. Dane funkcji szybkości obliczane są zawsze tylko raz - przechowujemy je, a następnie budujemy z nich splajn po uruchomieniu kodu, a następnie ten splajn jest wykorzystywany do wszystkich ocen funkcji.
Załóżmy, że i są funkcjami szybkości (które oceniamy przez interpolację), a następnie emisja w -tym wierzchołku siatki jest podana przez
gdzie to 3 pola, które modelujemy na siatce. Przeniesienie wektora emisji na obraz z kamery jest łatwe, wystarczy pomnożenie przez macierz która koduje części siatki, przez które patrzy każdy piksel kamery.
Ponieważ błędy są gaussowskie, prawdopodobieństwo dziennika dla tego konkretnego aparatu wynosi zatem
gdzie to dane kamery. Całkowite prawdopodobieństwo logarytmu jest sumą 4 powyższych wyrażeń, ale dla różnych kamer, z których wszystkie mają różne wersje funkcji szybkości ponieważ patrzą na różne części spektrum światła.
Wcześniejszy przykład
Mamy różne priorytety, które skutecznie po prostu ustalają pewne górne i dolne granice dla różnych wielkości, ale te zwykle nie działają zbyt silnie na problem. Mamy jeden wcześniej działający silnie, który skutecznie stosuje wygładzanie typu Laplaciana na polach. Przybiera również postać gaussowską: