Próbkowanie z niewłaściwej dystrybucji (przy użyciu MCMC i innych)

15

Moje podstawowe pytanie brzmi: w jaki sposób próbowałbyś z niewłaściwej dystrybucji? Czy sens ma nawet próbkowanie z niewłaściwej dystrybucji?

Komentarz Xi'ana tutaj w pewnym sensie odpowiada na pytanie, ale szukałem więcej szczegółów na ten temat.

Bardziej specyficzne dla MCMC:

Mówiąc o MCMC i czytając artykuły, autorzy podkreślają, że uzyskali prawidłowe rozkłady tylne. Istnieje słynny artykuł Geyera (1992), w którym autor zapomniał sprawdzić, czy jego tylna część była odpowiednia (w przeciwnym razie doskonała praca)

Załóżmy jednak, że mamy prawdopodobieństwo i niewłaściwą wcześniejszą dystrybucję na tak że wynikowy tył jest również niewłaściwy, a MCMC jest używane do pobierania próbek z rozkładu. W takim przypadku co wskazuje próbka? Czy w tej próbce są jakieś przydatne informacje? Wiem, że łańcuch Markowa tutaj jest albo przejściowy, albo zerowy. Czy są jakieś pozytywne dania na wynos, jeśli są zerowe ? $f(x|\theta)$ $\theta$

Wreszcie, w odpowiedzi Neila G. wspomina tutaj

zazwyczaj możesz pobierać próbki (za pomocą MCMC) z tyłu, nawet jeśli jest to niewłaściwe.

Wspomina, że takie pobieranie próbek jest powszechne w głębokim uczeniu się. Jeśli to prawda, jak to ma sens?

— Greenparker
źródło

1

Ten jstor.org/stable/pdf/2246228.pdf?_=1462943547901 może być interesujący

— peuhp

@peuhp Zdecydowanie pomocne. Rozumiem z tego, że jeśli funkcjonale, które mają być oceniane z próbek, są całkowalne, wówczas pobieranie próbek z niewłaściwego tylnego odcinka ma sens. Czy moja interpretacja jest poprawna?

— Greenparker,

3

Tak. Rozważmy trywialny przypadek niewłaściwego tylnego, w którym niewłaściwość wynika z grubych ogonów, i funkcji, która jest równa zeru poza i ma wszystkie dobre właściwości dla całkowitej wartości powyżej . Fakt, że tylny jest niewłaściwy, jest nieistotny, ponieważ jedyna część tylnego, która ma znaczenie, to część powyżej .

[0, 1]

$[0,1]$

[0, 1]

$[0,1]$

[0, 1]

$[0,1]$

— jbowman

10

Pobieranie próbek z niewłaściwej tylnej (gęstości) nie ma sensu z probabilistycznego / teoretycznego punktu widzenia. Powodem tego jest to, że funkcja nie ma całki skończonej w przestrzeni parametrów i w związku z tym nie może być powiązana z modelem prawdopodobieństwa miara skończona) (przestrzeń, sigma-algebra, miara prawdopodobieństwa ). $f$ $f$ $(\Omega,\sigma,{\mathbb P})$

Jeśli masz model z niewłaściwym przodem, który prowadzi do niewłaściwego tylnego odcinka, w wielu przypadkach możesz nadal pobierać z niego próbki za pomocą MCMC, na przykład Metropolis-Hastings, a „próbki tylne” mogą wyglądać rozsądnie. Na pierwszy rzut oka wygląda to intrygująco i paradoksalnie. Powodem tego jest jednak to, że metody MCMC są ograniczone do ograniczeń numerycznych komputerów w praktyce, a zatem wszystkie podpory są ograniczone (i dyskretne!) Dla komputera. Następnie, zgodnie z tymi ograniczeniami (ograniczeniami i dyskrecją), w większości przypadków tylne jest właściwe.

Jest świetne odniesienie Hoberta i Caselli, które przedstawia przykład (nieco innej natury), w którym możesz skonstruować próbnik Gibbs dla a posterior, próbki a posterior wyglądają zupełnie rozsądnie, ale a posterior jest niewłaściwy!

http://www.jstor.org/stable/2291572

Podobny przykład ostatnio pojawił się tutaj . W rzeczywistości Hobert i Casella ostrzegają czytelnika, że metod MCMC nie można użyć do wykrycia niewłaściwości tylnej części ciała i że należy to sprawdzić osobno przed wdrożeniem jakichkolwiek metod MCMC. W podsumowaniu:

Niektóre samplery MCMC, takie jak Metropolis-Hastings, mogą (ale nie powinny) być używane do próbkowania z niewłaściwej tylnej części, ponieważ komputer ogranicza i dyktuje przestrzeń parametrów. Tylko jeśli masz ogromne próbek, to może być w stanie zaobserwować jakieś dziwne rzeczy. To, jak dobrze możesz wykryć te problemy, zależy również od dystrybucji „instrumentalnej” zastosowanej w twoim samplerze. Ta ostatnia kwestia wymaga szerszej dyskusji, więc wolę ją tutaj zostawić.
(Hobert i Casella). Fakt, że możesz zbudować próbnik Gibbsa (model warunkowy) dla modelu z niewłaściwym wyprzedzeniem, nie oznacza, że tylny (model połączenia) jest właściwy.
Formalna probabilistyczna interpretacja próbek tylnych wymaga właściwości tylnej. Wyniki i dowody konwergencji są ustalane tylko dla właściwych rozkładów / miar prawdopodobieństwa.

PS (nieco język w policzek): Nie zawsze wierz w to, co ludzie robią w uczeniu maszynowym. Jak powiedział prof. Brian Ripley: „uczenie maszynowe to statystyka pomniejszona o sprawdzenie modeli i założeń”.

— Pręt
źródło

(+1) Świetna odpowiedź i zgadza się z większością moich myśli. Przeczytam referencję Hoberta + Caselli. Czy zdajesz sobie sprawę, że może się wydarzyć coś lepszego, jeśli łańcuch Markowa jest zerowy? Zgadzam się również z uwagą PS.

— Greenparker

@ Nawracające łańcuchy Markova w Greenparker Null nie mają dystrybucji stacjonarnej. Są zatem bezużyteczne w kontekście MCMC (gdzie konstruujesz łańcuchy Markowa z rozkładem stacjonarnym równym rozkładowi docelowemu), patrz na przykład tutaj i tutaj .

— Rod

5

Dając alternatywny, bardziej zastosowany, widok z doskonałej odpowiedzi Rod powyżej powyżej -

$+/- 10^{100}$

$1/x$ wcześniej - jeden, którego używam do obliczeń, który nie ma górnej granicy, i jego „dodatkową cechę”, gdy jest równa zero powyżej populacji San Francisco ... ”, przy czym„ dodatkowa funkcja ”jest stosowana w krok po wygenerowaniu próbki. Prawdziwy przeor nie jest tym, który jest używany w obliczeniach MCMC (w moim przykładzie).

Zasadniczo więc byłbym całkiem w porządku z użyciem próbki wygenerowanej przez MCMC z niewłaściwego rozkładu w zastosowanej pracy, ale zwracałbym dużą uwagę na to, jak doszło do tej nieprawidłowości i jak wpłynie ona na losową próbkę . Idealnie nie wpłynęłoby to na losową próbkę, jak w moim przykładzie z hot-dogami, gdzie w rozsądnym świecie nigdy nie wygenerowałbyś przypadkowej liczby większej niż liczba ludzi w San Francisco ...

Powinieneś także zdawać sobie sprawę z faktu, że twoje wyniki mogą być dość wrażliwe na cechę tylnej części ciała, która spowodowała, że była niewłaściwa, nawet jeśli później przycinasz ją o pewną dużą liczbę później (lub jakąkolwiek zmianę odpowiednią dla twojego modelu. ) Chcesz, aby Twoje wyniki były odporne na niewielkie zmiany, które zmieniają twój tył z niewłaściwego na właściwy. Może to być trudniejsze do zapewnienia, ale jest to część większego problemu polegającego na upewnieniu się, że wyniki są zgodne z założeniami, zwłaszcza tymi, które zostały stworzone dla wygody.

— łucznik
źródło

+1, interesująca taktyka. Możesz także podać obcinanie jako swój prawdziwy przeor. Wyobrażam sobie, że podczas wykonywania mcmc może to nie być banjax zbyt wielu twoich obliczeń i uniknęłoby potrzeby omawiania zastosowania przybliżenia.

— przypuszcza

@conjectures - z pewnością w tym przypadku! To był tylko prosty przykład, mający na celu zilustrowanie tego, że a) może istnieć różnica między wcześniejszym użytym w obliczeniu MCMC a faktycznym wcześniejszym, b) różnicę można rozwiązać przez przetwarzanie końcowe próbki MCMC (w celu rozsądny stopień „rozdzielczości”) oraz c) niewłaściwość wyników z wcześniejszego wykorzystania w obliczeniach MCMC nie oznacza niestosowności wyników po zakończeniu przetwarzania końcowego.

— jbowman