Ta odpowiedź analizuje znaczenie cytatu i oferuje wyniki badania symulacyjnego, aby go zilustrować i pomóc zrozumieć, co może on powiedzieć. Badanie może z łatwością przedłużyć każdy (z podstawowymi R
umiejętnościami) w celu zbadania innych procedur przedziału ufności i innych modeli.
W tej pracy pojawiły się dwie interesujące kwestie. Jedna dotyczy sposobu oceny dokładności procedury przedziału ufności. Od tego zależy wrażenie, jakie daje solidność. Wyświetlam dwie różne miary dokładności, abyś mógł je porównać.
Inną kwestią jest to, że chociaż procedura przedziału ufności o niskim poziomie ufności może być solidna, odpowiednie limity ufności mogą wcale nie być solidne. Odstępy zwykle działają dobrze, ponieważ błędy, które popełniają na jednym końcu, często równoważą błędy, które popełniają na drugim końcu. W praktyce możesz być całkiem pewien, że około połowa z przedziałów ufności pokrywa ich parametry, ale rzeczywisty parametr może konsekwentnie znajdować się w pobliżu jednego określonego końca każdego przedziału, w zależności od tego, jak rzeczywistość odbiega od założeń modelu.50 %
Wytrzymałość ma standardowe znaczenie w statystykach:
Solidność na ogół implikuje niewrażliwość na odstępstwa od założeń otaczających podstawowy model probabilistyczny.
(Hoaglin, Mosteller i Tukey, Understanding Robust and Exploratory Data Analysis . J. Wiley (1983), s. 2)
Jest to zgodne z cytatem w pytaniu. Aby zrozumieć ofertę , nadal musimy znać zamierzony cel przedziału ufności. W tym celu przejrzyjmy to, co napisał Gelman.
Wolę przerwy od 50% do 95% z 3 powodów:
Stabilność obliczeniowa,
Bardziej intuicyjna ocena (połowa 50% przedziałów powinna zawierać prawdziwą wartość),
Poczucie, że w aplikacjach najlepiej jest zorientować się, gdzie będą parametry i przewidywane wartości, a nie próbować nierealistycznej niemal pewności.
Ponieważ zrozumienie przewidywanych wartości nie jest tym, do czego przeznaczone są przedziały ufności (CI), skupię się na uzyskaniu poczucia wartości parametrów , co robią CI. Nazwijmy je „wartościami docelowymi”. Skąd z definicji element CI ma obejmować cel z określonym prawdopodobieństwem (poziomem ufności). Osiągnięcie zamierzonych wskaźników zasięgu jest minimalnym kryterium oceny jakości dowolnej procedury CI. (Dodatkowo możemy być zainteresowani typowymi szerokościami CI. Aby utrzymać słupek na rozsądnej długości, zignoruję ten problem).
Te rozważania zachęcają nas do zbadania, o ile obliczenie przedziału ufności może nas wprowadzić w błąd co do wartości parametru docelowego. Cytat można odczytać jako sugerujący, że CI o niższym poziomie ufności mogą zachować swój zasięg, nawet jeśli dane są generowane przez proces inny niż model. To możemy przetestować. Procedura jest następująca:
Przyjmij model prawdopodobieństwa, który zawiera co najmniej jeden parametr. Klasycznym jest próbkowanie z rozkładu normalnego o nieznanej średniej i wariancji.
Wybierz procedurę CI dla jednego lub więcej parametrów modelu. Znakomity konstruuje CI na podstawie średniej próbki i odchylenia standardowego próbki, mnożąc ją przez współczynnik podany przez rozkład t Studenta.
Zastosuj tę procedurę do różnych różnych modeli - nie odchodząc zbytnio od przyjętego - aby ocenić jej zasięg na różnych poziomach ufności.
50 %99,8 %
αp, następnie
log( p1 - p) -log( α1 - α)
ładnie oddaje różnicę. Gdy wynosi zero, zasięg jest dokładnie zamierzoną wartością. Gdy jest ujemny, zasięg jest zbyt niski - co oznacza, że CI jest zbyt optymistyczny i nie docenia niepewności.
Pytanie brzmi zatem, jak te poziomy błędów różnią się w zależności od poziomu ufności, gdy zaburzony jest model podstawowy? Możemy na to odpowiedzieć, wykreślając wyniki symulacji. Te wykresy określają, jak „nierealna” może być „prawie pewność” CI w tym archetypowym zastosowaniu.
( 1 / 30 , 1 / 30 )
α95 %3)
α = 50 %50 %95 %5 % czasu, powinniśmy być przygotowani na to, że nasz poziom błędów będzie znacznie większy, na wypadek gdyby świat nie działał dokładnie tak, jak zakłada nasz model.
50 %50 %
To jest R
kod, który wytworzył wykresy. Można go łatwo modyfikować, aby badać inne rozkłady, inne przedziały ufności i inne procedury CI.
#
# Zero-mean distributions.
#
distributions <- list(Beta=function(n) rbeta(n, 1/30, 1/30) - 1/2,
Uniform=function(n) runif(n, -1, 1),
Normal=rnorm,
#Mixture=function(n) rnorm(n, -2) + rnorm(n, 2),
Exponential=function(n) rexp(n) - 1,
Lognormal=function(n) exp(rnorm(n, -1/2)) - 1
)
n.sample <- 12
n.sim <- 5e4
alpha.logit <- seq(0, 6, length.out=21); alpha <- signif(1 / (1 + exp(-alpha.logit)), 3)
#
# Normal CI.
#
CI <- function(x, Z=outer(c(1,-1), qt((1-alpha)/2, n.sample-1)))
mean(x) + Z * sd(x) / sqrt(length(x))
#
# The simulation.
#
#set.seed(17)
alpha.s <- paste0("alpha=", alpha)
sim <- lapply(distributions, function(dist) {
x <- matrix(dist(n.sim*n.sample), n.sample)
x.ci <- array(apply(x, 2, CI), c(2, length(alpha), n.sim),
dimnames=list(Endpoint=c("Lower", "Upper"),
Alpha=alpha.s,
NULL))
covers <- x.ci["Lower",,] * x.ci["Upper",,] <= 0
rowMeans(covers)
})
(sim)
#
# The plots.
#
logit <- function(p) log(p/(1-p))
colors <- hsv((1:length(sim)-1)/length(sim), 0.8, 0.7)
par(mfrow=c(1,2))
plot(range(alpha.logit), c(-2,1), type="n",
main="Confidence Interval Accuracies (Logit Scales)", cex.main=0.8,
xlab="Logit(alpha)",
ylab="Logit(coverage) - Logit(alpha)")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
coverage <- sim[[i]]
lines(alpha.logit, logit(coverage) - alpha.logit, col=colors[i], lwd=2)
}
plot(range(alpha), c(-0.2, 0.05), type="n",
main="Raw Confidence Interval Accuracies", cex.main=0.8,
xlab="alpha",
ylab="coverage-alpha")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
coverage <- sim[[i]]
lines(alpha, coverage - alpha, col=colors[i], lwd=2)
}