Jaki jest związek między wielkością próby a wpływem wcześniejszego na tylny?

17

Jeśli mamy małą próbkę, czy wcześniejszy rozkład będzie miał duży wpływ na rozkład tylny?

bayesian sample-size prior

— Toby J.
źródło

5

Intuicja jest jasna: im więcej masz danych, tym mniej musisz polegać na swoich priorytetach. Nie tylko lekcja statystyki, ale lekcja życia! ;)

— Lucas Reis,

27

Tak. Rozkład tylny dla parametru danym zestawie danych można zapisać jako $\theta$ ${\bf X}$

p (θ | X) \propto \underset{l i k e l i h o o d}{\underset{⏟}{p (X | θ)}} \cdot \underset{p r i o r}{\underset{⏟}{p (θ)}}

$p(\theta | {\bf X}) \propto \underbrace{p({\bf X} | \theta)}_{{\rm likelihood}} \cdot \underbrace{p(\theta)}_{{\rm prior}}$

lub, jak to jest częściej wyświetlane na skali dziennika,

\log (p (θ | X)) = c + L (θ; X) + \log (p (θ))

$\log( p(\theta | {\bf X}) ) = c + L(\theta;{\bf X}) + \log(p(\theta))$

Prawdopodobieństwo dziennika, , skaluje się z wielkością próbki , ponieważ jest to funkcja dane, podczas gdy poprzednia gęstość nie. Dlatego wraz ze wzrostem wielkości próbki wartość bezwzględna staje się większa, podczas gdy pozostaje na stałym poziomie (dla stałej wartości ), a zatem suma staje się silniej pod wpływem wraz ze wzrostem wielkości próby. $L(\theta;{\bf X}) = \log \left( p({\bf X}|\theta) \right)$ $L(\theta;{\bf X})$ $\log(p(\theta))$ $\theta$ $L(\theta;{\bf X}) + \log(p(\theta))$ $L(\theta;{\bf X})$

Dlatego, aby bezpośrednio odpowiedzieć na twoje pytanie - poprzednia dystrybucja staje się coraz mniej istotna, ponieważ prawdopodobieństwo przeważa. Tak więc, dla małej wielkości próbki, wcześniejsza dystrybucja odgrywa znacznie większą rolę. Zgadza się to z intuicją, ponieważ można by oczekiwać, że wcześniejsze specyfikacje odegrałyby większą rolę, gdy nie ma zbyt wielu danych, aby je obalić, natomiast jeśli wielkość próbki jest bardzo duża, sygnał obecny w danych przeważa cokolwiek a priori przekonania zostały wprowadzone do modelu.

— Makro
źródło

6

+1 Zauważ, że zależy również od .

c

$c$

n

$n$

20

Oto próba zilustrowania ostatniego akapitu doskonałej odpowiedzi Makra (+1). Pokazuje dwa priorytety dla parametru w rozkładzie . Dla kilku różnych , rozkłady tylne są pokazane, gdy zaobserwowano . Gdy rośnie, oba tylne stają się coraz bardziej skoncentrowane wokół . $p$ ${\rm Binomial}(n,p)$ $n$ $x=n/2$ $n$ $1/2$

Dla różnica jest dość duża, ale dla praktycznie nie ma różnicy. $n=2$ $n=50$

Dwa poniższe priorytety to (czarny) i (czerwony). Tylniacze mają takie same kolory jak przeorowie, z których pochodzą. ${\rm Beta(1/2,1/2)}$ ${\rm Beta(2,2)}$

Rozkłady tylne

(Pamiętaj, że dla wielu innych modeli i innych priorytetów nie wystarczy, aby wcześniejsze nie miało znaczenia!) $n=50$

— MånsT
źródło

4

Bardzo fajne ilustracje, @ MånsT. W odpowiedzi odpowiedziałem kursywą słowa „Beta” i „Dwumianowy” - mam nadzieję, że nie masz nic przeciwko.

— Makro

Oczywiście, że nie, @Macro! Zgadzam się, że tak wygląda lepiej.

— MånsT