Szukam różnych sposobów wyjaśnienia moim studentom (na podstawowym kursie statystyki), co to jest test dwustronny i jak obliczana jest jego wartość P.
Jak wytłumaczysz swoim uczniom test dwustronny?
Szukam różnych sposobów wyjaśnienia moim studentom (na podstawowym kursie statystyki), co to jest test dwustronny i jak obliczana jest jego wartość P.
Jak wytłumaczysz swoim uczniom test dwustronny?
Odpowiedzi:
To świetne pytanie i nie mogę się doczekać, kiedy wszyscy wyjaśnią wartość p oraz test dwustronny vs jednostronny. Uczyłem statystyki chirurgów ortopedów i dlatego starałem się, aby była ona jak najbardziej podstawowa, ponieważ większość z nich nie robiła żadnej zaawansowanej matematyki przez 10-30 lat.
Zaczynam od wyjaśnienia, że jeśli uważamy, że mamy uczciwą monetę, wiemy, że powinna ona skończyć średnio 50% obrotów ( ). Teraz, jeśli zastanawiasz się, jakie jest prawdopodobieństwo otrzymania tylko 2 ogonów na 10 rzutów za pomocą tej uczciwej monety, możesz obliczyć to prawdopodobieństwo, tak jak to zrobiłem na wykresie słupkowym. Z wykresu widać, że prawdopodobieństwo uzyskania 8 na 10 rzutów uczciwą monetą wynosi około ≈ 4,4 % .
Ponieważ kwestionowalibyśmy uczciwość monety, gdybyśmy otrzymali 9 lub 10 reszek, musimy uwzględnić te możliwości, ogon testu. Po dodaniu wartości otrzymujemy, że prawdopodobieństwo wynosi teraz nieco więcej niż uzyskania 2 ogonów lub mniej.
Jeśli otrzymalibyśmy tylko 2 główki, czyli 8 głów (drugi ogon), prawdopodobnie równie chętnie kwestionowalibyśmy uczciwość monety. Oznacza to, że dla testu dwustronnego otrzymujesz prawdopodobieństwo .
Ponieważ my w medycynie zazwyczaj jesteśmy zainteresowani badaniem niepowodzeń, musimy uwzględnić przeciwną stronę prawdopodobieństwa, nawet jeśli naszym celem jest czynienie dobra i wprowadzenie korzystnego leczenia.
Ten prosty przykład pokazuje również, jak jesteśmy zależni od hipotezy zerowej w celu obliczenia wartości p. Chciałbym również zwrócić uwagę na podobieństwo między krzywą dwumianową a krzywą dzwonową. Zmieniając na 200 rzutów, możesz w naturalny sposób wyjaśnić, dlaczego prawdopodobieństwo uzyskania dokładnie 100 rzutów zaczyna być mało istotne. Definiowanie przedziałów zainteresowania jest naturalnym przejściem do funkcji gęstości prawdopodobieństwa / funkcji masy i ich kumulatywnych odpowiedników.
W mojej klasie polecam im filmy ze statystykami Akademii Chana, a także niektóre jego wyjaśnienia do niektórych pojęć. Mogą także rzucać monetami, gdy patrzymy na przypadkowość rzucania monetami - staram się pokazać, że losowość jest bardziej przypadkowa niż to, co zwykle uważamy za inspirowane tym odcinkiem Radiolab .
Zwykle mam jeden wykres / slajd, kod R, którego użyłem do utworzenia wykresu:
library(graphics)
binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0,
col=c("green", "gold", "red")){
barplot(
dbinom(0:x_max, x_max, my_prob)*100,
col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
#names=0:x_max,
ylab="Probability %",
xlab="Number of tails", names.arg=0:x_max)
if (my_title != FALSE ){
title(main=my_title)
}
}
binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))
Załóżmy, że chcesz przetestować hipotezę, że średnia wysokość mężczyzn wynosi „5 stóp i 7 cali”. Wybierasz losową próbę mężczyzn, mierzysz ich wysokości i obliczasz średnią z próby. Twoja hipoteza jest zatem następująca:
W powyższej sytuacji wykonujesz test dwustronny, ponieważ odrzucasz wartość zerową, jeśli średnia próbki jest zbyt niska lub zbyt wysoka.
W tym przypadku wartość p reprezentuje prawdopodobieństwo realizacji próby średniej, która jest co najmniej tak ekstremalna jak ta, którą faktycznie uzyskaliśmy, zakładając, że wartość null jest w rzeczywistości prawdziwa. Zatem jeśli zaobserwujemy, że próbka oznacza „5 stóp 8 cali”, wówczas wartość p będzie reprezentować prawdopodobieństwo, że będziemy obserwować wysokości większe niż „5 stóp 8 cali” lub wysokości mniejsze niż „5 stóp 6 cali”, pod warunkiem, że zero jest prawdziwy.
Jeśli z drugiej strony twoja alternatywa została tak sformułowana:
W powyższej sytuacji wykonałeś jednostronny test po prawej stronie. Powodem jest to, że wolisz odrzucić wartość zerową na korzyść alternatywy tylko wtedy, gdy średnia próbki jest bardzo wysoka.
Interpretacja wartości p pozostaje taka sama przy niewielkim niuansie, który mówimy teraz o prawdopodobieństwie realizacji średniej próbki, która jest większa niż faktycznie uzyskana. Tak więc, jeśli zaobserwujesz, że próbka oznacza „5 stóp 8 cali”, wówczas wartość p będzie reprezentować prawdopodobieństwo, że będziemy obserwować wysokości większe niż „5 stóp 8 cali”, pod warunkiem, że zero jest prawdziwe.