Czy istnieje bayesowskie podejście do szacowania gęstości?

Jestem zainteresowany, aby oszacować gęstość ciągłej zmiennej losowej . Jednym ze sposobów na osiągnięcie tego, czego się nauczyłem, jest użycie estymacji gęstości jądra. $X$

Ale teraz interesuje mnie podejście bayesowskie, zgodne z poniższymi wytycznymi. I początkowo przekonani, że następuje rozkład . Biorę odczytów . Czy istnieje jakieś podejście do aktualizacji na podstawie moich nowych odczytów? $X$ $F$ $n$ $X$ $F$

Wiem, że brzmię, jakbym sam sobie zaprzeczał: jeśli wierzę wyłącznie w jako moją wcześniejszą dystrybucję, to żadne dane nie powinny mnie przekonać inaczej. Załóżmy jednak, że były a moje punkty danych były podobne . Widząc , oczywiście nie mogę trzymać się mojego wcześniejszego, ale jak mam go zaktualizować? $F$ $F$ $Unif[0,1]$ $(0.3, 0.5, 0.9, 1.7)$ $1.7$

Aktualizacja: Na podstawie sugestii w komentarzach zacząłem przyglądać się procesowi Dirichleta. Pozwól mi użyć następujących notacji:

$G \sim DP(\alpha,H)\\ \theta_i | G \sim G\\ x_i | \theta_i \sim N(\theta_i,\sigma^2)$

Po sformułowaniu mojego oryginalnego problemu w tym języku, mi się, że jestem zainteresowany następującymi : . Jak to zrobić? $\theta_{n+1} | x_1,...,x_n$

W tym zestawie notatek (strona 2) autor zrobił przykład (program Polya Urn). Nie jestem pewien, czy jest to istotne. $\theta_{n+1} | \theta_1,...,\theta_n$

Aktualizacja 2: Chciałbym również zapytać (po obejrzeniu notatek): jak ludzie wybierają do DP? Wygląda na przypadkowy wybór. Ponadto, w jaki sposób ludzie wybierają wcześniejsze dla DP? Czy powinienem użyć wcześniejszego for jako mojego wcześniejszego dla ? $\alpha$ $H$ $\theta$ $H$

— renrenthehamster
źródło

„Jeśli wierzę wyłącznie w F jako moją wcześniejszą dystrybucję, żadne dane nie powinny mnie przekonać inaczej”. Jest to przeciwieństwo wnioskowania bayesowskiego, które jest bardziej zgodne z tym, w co wierzysz w jednej ręce, a świat w drugiej, i zbierasz je razem, aby zobaczyć, co się wydarzy. Umyj, spłucz, powtórz.

— Alexis

Czy wiesz coś o procesie dirichleta?

— niandra82

Ignorując ostatni akapit: istnieją dwie typowe opcje tego problemu. Jednym z nich jest skończona mieszanina normalnych (możesz wybrać liczbę normalnych na podstawie prawdopodobieństwa w walidacji krzyżowej) lub nieskończona mieszanka normalnych, jak sugeruje @ niandra82. Można to zrobić za pomocą próbkowania Gibbsa lub wnioskowania wariacyjnego. Czy znasz którąś z tych metod?

Powinienem również zapytać, jak zamierzasz korzystać z tego KDE? Wybrana metoda i rozmiar (nieskończony, skończony) mogą zależeć od twojego celu.

To brzmi jak problem wyboru modelu lub filozoficzny. W rzeczywistości nasz wybór, którego prawdopodobieństwa użyć w wnioskowaniu bayesowskim, narzuca także wcześniejsze przekonania ...

— Zoë Clark

Odpowiedzi:

Ponieważ chcesz zastosować podejście bayesowskie, musisz założyć wcześniejszą wiedzę na temat tego, co chcesz oszacować. Będzie to miało formę dystrybucji.

Problem polega na tym, że jest to teraz podział na dystrybucje. Nie stanowi to jednak problemu, jeśli założymy, że dystrybucje kandydujące pochodzą z jakiejś sparametryzowanej klasy dystrybucji.

Na przykład, jeśli chcesz założyć, że dane są rozkładem gaussowskim z nieznaną średnią, ale znaną wariancją, to wszystko, czego potrzebujesz, to wcześniejszy wynik niż średnia.

Estymacja MAP nieznanego parametru (nazwij go ) może przebiegać przy założeniu, że wszystkie obserwacje / punkty danych są warunkowo niezależne, biorąc pod uwagę nieznany parametr. Zatem oszacowanie MAP to $\theta$

, $\hat{\theta} = \arg \max_\theta ( \text{Pr}[x_1,x_2,...,x_n,\theta] )$

gdzie

. $\text{Pr}[x_1,x_2,...,x_n,\theta] = \text{Pr}[x_1,x_2,...,x_n | \theta] \text{Pr}[\theta] = \text{Pr}[\theta] \prod_{i=1}^n \text{Pr}[x_i | \theta]$

Należy zauważyć, że istnieją szczególne kombinacje wcześniejszego prawdopodobieństwa i rozkładów kandydujących które powodują łatwe (zamknięte formularze) aktualizacje w miarę odbierania większej liczby punktów danych. $\text{Pr}[\theta]$ $\text{Pr}[x | \theta]$

— fasola
źródło

Do celów oceny gęstości nie potrzebujesz tego, czego potrzebujesz

. $\theta_{n+1}|x_{1},\ldots,x_{n}$

Wzór w notatkach odnosi się do predykcyjnego rozkładu procesu Dirichleta. $\theta_{n+1}|\theta_{1},\ldots,\theta_{n}$

Aby oszacować gęstość, musisz pobrać próbkę z rozkładu predykcyjnego

π (d x_{n + 1} | x_{1}, \dots, x_{n})

$\pi(dx_{n+1}|x_{1},\ldots,x_{n})$

Próbki z powyższego rozkładu można wykonać metodami warunkowymi lub metodami marginalnymi. Metody warunkowe znajdują się w pracy Stephena Walkera [1]. Metody marginalne należy sprawdzić w pracy Radforda Neala [2].

Dla parametru konknetracji Mike West [3] proponuje metodę wnioskowania w procedurze MCMC, w tym pełny rozkład warunkowy dla . Jeśli zdecydujesz się nie aktualizować stężenia w procedurze MCMC, należy pamiętać, że jeśli wybierzesz dla niego dużą wartość, wówczas liczba różnych wartości uzyskanych z procesu Dirichleta będzie większa niż liczba różnych wartości, gdy zostanie użyta niewielka liczba dla . $\alpha$ $\alpha$ $\alpha$ $\alpha$

[1] SG, Walker (2006). Pobieranie próbek modelu mieszanki Dirichleta z plastrami. Komunikacja w statystyce (symulacja i obliczenia).

[2] RM, Neal (2000) Markov Chain Metod Monte Carlo dla modeli Dirichlet Process Mixture. Journal of Obliczeniowe i graficzne statystyki. Vol 9, nr 2, s. 249–265

[3] M., West (1992). Oszacowanie hiperparametrów w modelach mieszanin procesowych Dirichleta. Raport techniczny

— Christos
źródło

-1

Czy istnieje jakieś podejście do aktualizacji F na podstawie moich nowych odczytów?

Jest na to coś precyzyjnego. To właściwie główna idea wnioskowania bayesowskiego.

$p(\theta | y) \propto p(y|\theta)p(\theta)$

$p(\theta)$ $F$ $p(y|\theta)$ $\theta$

$p(\theta)$

— rcorty
źródło

F

$F$

X_{1}, \dots, X_{n} \overset{i i d}{\sim} F

$X_1, \ldots, X_n \stackrel{iid}{\sim} F$

F

$F$

L (F) = \prod_{i = 1}^{N} {\frac{d F}{d x} |}_{x = x_{i}}

$L(F) = \prod_{i=1}^N \left.\frac{dF}{dx}\right|_{x = x_i}$

F

$F$