Oto przykład oszacowania średniej podstawie normalnych danych ciągłych. Zanim przejdę bezpośrednio do przykładu, chciałbym przejrzeć niektóre obliczenia matematyczne dla normalnych i normalnych modeli Bayesa.θ
Rozważ losową próbkę n ciągłych wartości oznaczonych przez . Tutaj wektor reprezentuje zebrane dane. Model prawdopodobieństwa dla danych normalnych o znanej wariancji i niezależnych i identycznie rozmieszczonych (iid) próbkach to r = ( Y 1 , . . . , Y n ) Ty1, . . . , yny= ( y1, . . . , yn)T.
y1, . . . , yn| θ~N( θ , σ2))
Lub, jak zwykle pisze Bayesian,
y1, . . . , yn| θ~N( θ , τ)
τ= 1 / σ2)τ
yja
fa( yja| θ,τ) = (√τ2 π) × e x p ( - τ( yja- θ )2)/ 2 )
θ^= y¯
θ
θ∼N(a,1/b)
Rozkład tylny uzyskany z tego modelu danych Normalny-Normalny (po dużej algebrze) jest kolejnym rozkładem Normalnym.
θ|y∼N(bb+nτa+nτb+nτy¯,1b+nτ)
b+nτay¯bb+nτa+nτb+nτy¯
θ|yθθ
To powiedziawszy, możesz teraz użyć dowolnego podręcznika z danymi normalnymi, aby to zilustrować. Wykorzystam zestaw danych airquality
w R. Rozważmy problem szacowania średnich prędkości wiatru (MPH).
> ## New York Air Quality Measurements
>
> help("airquality")
>
> ## Estimating average wind speeds
>
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>
> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
>
>
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
>
> a = 12
> b = 2
>
> ## Your posterior would be N((1/))
>
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
>
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
>
> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5% 97.5%
9.958984 10.047404
W tej analizie badacz (ty) może powiedzieć, że biorąc pod uwagę dane + wcześniejsze informacje, twój szacunkowy średni wiatr, używając 50 percentyla, prędkości powinny wynosić 10,00324, więcej niż po prostu używając średniej z danych. Uzyskujesz również pełny rozkład, z którego możesz wydobyć 95% wiarygodny przedział przy użyciu kwantyli 2,5 i 97,5.
Poniżej zamieszczam dwa odniesienia, gorąco polecam przeczytanie krótkiego artykułu Caselli. Jest specjalnie ukierunkowany na empiryczne metody Bayesa, ale wyjaśnia ogólną metodologię Bayesa dla modeli normalnych.
Bibliografia:
Casella, G. (1985). Wprowadzenie do empirycznej analizy danych Bayesa. The American Statistician, 39 (2), 83-87.
Gelman, A. (2004). Analiza danych bayesowskich (wydanie 2, Teksty w statystyce). Boca Raton, Fla .: Chapman & Hall / CRC.