Zasadniczo możesz nadal poprawiać swoje oszacowanie dowolnego parametru, który testujesz, używając większej ilości danych. Zatrzymanie gromadzenia danych, gdy test osiągnie jakiś pół-arbitralny poziom znaczenia, jest dobrym sposobem na wyciągnięcie złych wniosków. To, że analitycy mogą źle zrozumieć znaczący wynik jako znak, że zadanie zostało wykonane, jest jedną z wielu niezamierzonych konsekwencji struktury Neyman-Pearson, zgodnie z którą ludzie interpretują wartości p jako przyczynę odrzucenia lub odrzucenia wartości zerowej bez zastrzeżeń w zależności od po której stronie progu krytycznego spadają.
Bez uwzględnienia bayesowskich alternatyw dla paradygmatu częstych (mam nadzieję, że ktoś inny to zrobi), przedziały ufności nadal są bardziej pouczające, znacznie powyżej punktu, w którym można odrzucić podstawową hipotezę zerową. Zakładając, że zebranie większej ilości danych sprawi, że Twój podstawowy test istotności osiągnie jeszcze większe znaczenie (i nie ujawni, że twoje wcześniejsze ustalenie istotności było fałszywie dodatnie), możesz uznać to za bezużyteczne, ponieważ i tak odrzucisz wartość null. Jednak w tym scenariuszu przedział ufności wokół danego parametru nadal będzie się zmniejszał, co poprawi stopień pewności, z jakim można precyzyjnie opisać interesującą cię populację.
Oto bardzo prosty przykład w r - testowanie hipotezy zerowej, że dla zmiennej symulowanej:μ = 0
One Sample t-test
data: rnorm(99)
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.377762241 -0.006780574
sample estimates:
mean of x
-0.1922714
Tutaj właśnie użyłem t.test(rnorm(99))
i zdarzyło mi się uzyskać fałszywie dodatni (zakładając, że domyślnie wybrałem jako mój wybór akceptowalnego fałszywie dodatniego poziomu błędu). Jeśli zignoruję przedział ufności, mogę stwierdzić, że moja próbka pochodzi z populacji, której średnia różni się znacznie od zera. Technicznie przedział ufności też tego nie kwestionuje, ale sugeruje, że średnia może być bardzo bliska zeru, a nawet dalej od niego, niż sądzę na podstawie tej próbki. Oczywiście wiem, że wartość null jest tutaj dosłownie prawdziwa, ponieważ średnia populacji domyślnie wynosi zero, ale rzadko znamy rzeczywiste dane.α = 0,05rnorm
Ponowne set.seed(8);t.test(rnorm(99,1))
uruchomienie tego, ponieważ daje średnią próbną 0,91, p = 5,3 E-13 i 95% przedział ufności dla . Tym razem mogę być całkiem pewny, że wartość null jest fałszywa, zwłaszcza że skonstruowałem ją tak, ustawiając średnią moich symulowanych danych na 1.μ = [ 0,69 , 1,12 ]
Powiedzmy jednak, że ważne jest, aby wiedzieć, jak różni się ona od zera; może średnia 0,8 byłaby zbyt bliska zeru, aby różnica miała znaczenie. Widzę, że nie mam wystarczającej ilości danych, aby wykluczyć możliwość, że zarówno z mojego przedziału ufności, jak iz testu t za pomocą , co daje p = 0,33. Moja średnia próbki jest wystarczająco wysoka, aby wydawać się znacząco różna od zera zgodnie z tym progiem 0,8; zebranie większej ilości danych może zwiększyć moją pewność, że różnica jest co najmniej tak duża, a nie tylko nieznacznie większa od zera.μ= 0,8mu=.8
Ponieważ „zbieram dane” poprzez symulację, mogę być trochę nierealistyczny i zwiększać rozmiar mojej próbki o rząd wielkości. Uruchomienie set.seed(8);t.test(rnorm(999,1),mu=.8)
ujawnia, że więcej danych jest nadal użytecznych po odrzuceniu hipotezy zerowej w tym scenariuszu, ponieważ mogę teraz odrzucić zerową wartość w mojej większej próbce. Przedział ufności wynoszący sugeruje nawet, że mógłbym odrzucić hipotezy zerowe do gdybym początkowo chciał to zrobić.μ = 0,8 μ = [ 0,90 , 1,02 ] μ = 0,89μ = 0μ = 0,8μ = [ 0,90 , 1,02 ]μ=.89
Nie mogę zrewidować mojej hipotezy zerowej po tym fakcie, ale bez gromadzenia nowych danych w celu przetestowania jeszcze silniejszej hipotezy po tym wyniku, mogę z 95% pewnością stwierdzić, że powtórzenie mojego „badania” pozwoliłoby mi odrzucić . Ponownie, tylko dlatego, że mogę to łatwo zasymulować, uruchomię ponownie kod jako : robienie tego pokazuje, że moja pewność siebie nie została źle umiejscowiona.H0:μ=.9set.seed(9);t.test(rnorm(999,1),mu=.9)
Testowanie coraz bardziej rygorystycznych hipotez zerowych, lub jeszcze lepiej, po prostu skupianie się na zmniejszaniu przedziałów ufności to tylko jeden ze sposobów. Oczywiście większość badań, które odrzucają hipotezy zerowe, stanowią podstawę dla innych badań opartych na hipotezie alternatywnej. Na przykład, gdybym testował alternatywną hipotezę, że korelacja jest większa od zera, mógłbym następnie przetestować mediatorów lub moderatorów w kolejnym badaniu ... a gdy już to robię, zdecydowanie chciałbym się upewnić Mógłbym odtworzyć oryginalny wynik.
Innym podejściem do rozważenia jest testowanie równoważności . Jeśli chcesz dojść do wniosku, że parametr mieści się w pewnym zakresie możliwych wartości, a nie tylko różni się od pojedynczej wartości, możesz określić zakres wartości, w których parametr ma się mieścić zgodnie z tradycyjną alternatywną hipotezą, i przetestować go przeciw innemu zestawowi hipotez zerowych, które razem reprezentują możliwość, że parametr leży poza tym zakresem. Ta ostatnia możliwość może być najbardziej podobna do tej, o której myślisz, pisząc:
Mamy „pewne dowody” na to, że alternatywa jest prawdziwa, ale nie możemy wyciągnąć takiego wniosku. Jeśli naprawdę chcę wyciągnąć ostateczny wniosek ...
Oto przykład wykorzystujący podobne dane jak powyżej (użycie set.seed(8)
, rnorm(99)
jest takie samo jak rnorm(99,1)-1
, więc średnia próbki to -.09). Powiedzmy, że chcę przetestować hipotezę zerową dwóch jednostronnych testów T, które łącznie zakładają, że średnia próbki nie mieści się w przedziale od -2 do .2. To luźno odpowiada założeniu z poprzedniego przykładu, zgodnie z którym chciałem sprawdzić, czy . Różnica polega na tym, że zmniejszyłem swoje dane o 1 i teraz zamierzam wykonać dwa jednostronne testy alternatywnej hipotezy, że . Oto jak to wygląda:- .2 ≤ μ ≤ .2μ=.8−.2≤μ≤.2
require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)
tost
ustawia poziom ufności przedziału na 90%, więc przedział ufności wokół średniej próbki -09 wynosi , a p = 0,17. Ponowne uruchomienie tego polecenia z (i tym samym ziarnem) zmniejsza jednak 90% przedział ufności do , który mieści się w zakresie równoważności określonym w hipotezie zerowej przy p = 4,55E-07.μ = [ - .09 , .01 ]μ=[−.27,.09]rnorm(999)
μ=[−.09,.01]
Nadal uważam, że przedział ufności jest bardziej interesujący niż wynik testu równoważności. Reprezentuje to, co dane sugerują, że średnia populacji jest bardziej konkretna niż hipoteza alternatywna, i sugeruje, że mogę być całkiem pewny, że mieści się ona w jeszcze mniejszym przedziale niż podałem w hipotezie alternatywnej. Aby to zademonstrować, jeszcze raz wykorzystam moje nierealistyczne moce symulacji i „ powielę ” używając set.seed(7);tost(rnorm(999),epsilon=.09345092)
: na pewno, p = 0,002.