Test Barnarda jest stosowany, gdy parametr uciążliwości jest nieznany w ramach hipotezy zerowej.
Jednak w teście degustacji dam można argumentować, że parametr uciążliwości można ustawić na 0,5 w ramach hipotezy zerowej (prawdopodobieństwo, że niedoinformowana dama ma 50% prawdopodobieństwa prawidłowego odgadnięcia filiżanki).
Następnie liczba poprawnych domysłów, zgodnie z hipotezą zerową, staje się rozkładem dwumianowym: zgadywanie 8 filiżanek z 50% prawdopodobieństwem dla każdej filiżanki.
W innych przypadkach możesz nie mieć tego trywialnego 50% prawdopodobieństwa dla hipotezy zerowej. I bez ustalonych marginesów możesz nie wiedzieć, jakie powinno być to prawdopodobieństwo. W takim przypadku potrzebujesz testu Barnarda.
Nawet jeśli wykonałbyś test Barnarda na teście herbaty dla kobiet smakujących, i tak stałby się 50% (jeśli wynik jest prawidłowy), ponieważ uciążliwy parametr o najwyższej wartości p wynosi 0,5 i dałby trywialny test dwumianowy ( w rzeczywistości jest to połączenie dwóch testów dwumianowych: jednego dla czterech pierwszych filiżanek mleka i jednego dla czterech pierwszych filiżanek herbaty).
> library(Barnard)
> barnard.test(4,0,0,4)
Barnard's Unconditional Test
Treatment I Treatment II
Outcome I 4 0
Outcome II 0 4
Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)
> dbinom(8,8,0.5)
[1] 0.00390625
> dbinom(4,4,0.5)^2
[1] 0.00390625
Poniżej przedstawiono, w jaki sposób można by uzyskać bardziej skomplikowany wynik (jeśli nie wszystkie domysły są poprawne, np. 2 w porównaniu z 4), wówczas liczenie tego, co jest, a co nie jest ekstremalne, staje się nieco trudniejsze
(Należy również zauważyć, że w teście Barnarda, w przypadku wyniku 4-2, uciążliwy parametr p = 0,686, który można argumentować, nie jest poprawny, wartość p dla 50% prawdopodobieństwa odpowiedzi „najpierw herbata” wynosiłaby 0,08203125. Staje się jeszcze mniejszy, gdy weźmie się pod uwagę inny region, zamiast tego oparty na statystykach Walda, chociaż określenie regionu nie jest takie łatwe )
out <- rep(0,1000)
for (k in 1:1000) {
p <- k/1000
ps <- matrix(rep(0,25),5) # probability for outcome i,j
ts <- matrix(rep(0,25),5) # distance of outcome i,j (using wald statistic)
for (i in 0:4) {
for (j in 0:4) {
ps[i+1,j+1] <- dbinom(i,4,p)*dbinom(j,4,p)
pt <- (i+j)/8
p1 <- i/4
p2 <- j/4
ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
}
}
cases <- ts < ts[2+1,4+1]
cases[1,1] = TRUE
cases[5,5] = TRUE
ps
out[k] <- 1-sum(ps[cases])
}
> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)
Barnard's Unconditional Test
Treatment I Treatment II
Outcome I 4 2
Outcome II 0 2
Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)