Czy wąski przedział ufności wokół nieistotnego efektu może dostarczyć dowodów na wartość zerową?

9

Oczywiście błędne jest założenie, że brak odrzucenia wartości null oznacza, że wartość null jest prawdziwa. Ale w przypadku, gdy wartość zerowa nie jest odrzucana, a odpowiadający jej przedział ufności (CI) jest wąski i wyśrodkowany wokół zera, czy nie dostarcza to dowodów na wartość zerową?

Mam dwa zdania: tak, w praktyce dostarczyłoby to dowodów na to, że efekt jest mniej więcej równy 0. Jednak w ścisłym kontekście testowania hipotez wydaje się, że efektów zerowych nie można po prostu wnioskować, podobnie jak odpowiadające im współczynniki CI. Jakie jest zatem znaczenie elementu CI, gdy jego oszacowanie punktowe jest nieistotne? Czy jest to również bezużyteczne do wnioskowania, czy może być użyte jak w poprzednim przykładzie do kwantyfikacji dowodów na wartość zerową?

Zachęcamy do udzielania odpowiedzi z referencjami naukowymi.

hypothesis-testing statistical-significance confidence-interval

— ATJ
źródło

Prawdopodobnie będziesz zainteresowany testem równoważności i szczegółowymi pytaniami na stronie. Zobacz Jak przetestować hipotezę braku różnic grupowych? na przykład.

— Andy W

1

Jeśli masz na myśli dowód na punkt zerowy wobec alternatywy czegoś innego ... to nie. Niepoliczalnie nieskończona liczba alternatyw między zaobserwowaną bardzo małą wartością a wartością zerową nadal będzie bardziej prawdopodobna niż wartość zerowa. Jeśli masz na myśli coś innego, być może w pewnych okolicznościach.

— Glen_b

Tak, to byłaby kwestia równoważnych testów, terminu, o którym jeszcze nie słyszałem.

— ATJ

6

W skrócie: tak.

Jak napisał Andy W, stwierdzenie, że parametr jest równy określonej wartości (w twoim przypadku wielkość efektu wynosi zero), jest kwestią sprawdzenia równoważności.

W twoim przypadku ten wąski przedział ufności może faktycznie wskazywać, że efekt jest praktycznie zerowy, co oznacza, że hipoteza zerowa równoważności może zostać odrzucona. Znacząca równoważność w $1-\alpha$ -level jest zwykle pokazywany przez zwykły $1-2\alpha$ - przedział ufności, który całkowicie mieści się w uprzednio określonym przedziale równoważności. Ten przedział równoważności bierze pod uwagę, że jesteś w stanie zaniedbać naprawdę małe odchylenia, tj. Wszystkie rozmiary efektów w tym przedziale równoważności można uznać za praktycznie równoważne. (Statystyczny test równości nie jest możliwy.)

Proszę przeczytać artykuł Stefana Welleka „Testowanie hipotez statystycznych o równoważności i nie-niższości”, który jest najbardziej wyczerpującą książką na ten temat.

— Horst Grünbusch
źródło

2

Hipotezy zerowe ilustrują znaczenie „Wszystkie modele są błędne, ale niektóre są przydatne”. Są prawdopodobnie najbardziej przydatne, jeśli nie są brane dosłownie i poza kontekstem - to znaczy, należy pamiętać o epistemicznym celu zerowania. Jeśli można go sfałszować, co jest zamierzonym celem, wówczas alternatywa staje się bardziej przydatna w porównaniu, choć nadal raczej mało informacyjna. Jeśli odrzucisz zero, mówisz, że efekt prawdopodobnie nie jest równy zero (lub cokolwiek innego - hipotezy zerowe mogą również określać inne wartości dla fałszowania) ... więc co to jest?

Obliczony rozmiar efektu jest najlepszym oszacowaniem punktowym parametru populacji. Zasadniczo szanse powinny być równie dobre, że są przeszacowane lub niedoszacowane, ale szanse, że jest to ślepy cel, są nieskończenie małe, jak sugeruje komentarz @ Glen_b. Jeśli z jakiegoś dziwnego zrządzenia losu (lub przez konstrukcję - w każdym razie, zakładam, że mówimy hipotetycznie?), Twoje oszacowanie spada bezpośrednio na $0.\bar 0$ , wciąż nie jest to wiele dowodów na to, że parametr nie jest inną wartością w przedziale ufności. Znaczenie przedziału ufności nie zmienia się w zależności od znaczenia jakiegokolwiek testu hipotezy, z wyjątkiem tego, o ile może to zmienić lokalizację i szerokość w powiązany sposób.

W przypadku, gdy nie jesteś zaznajomiony z tym, jak wyglądają szacunki wielkości efektu dla próbek z (symulowanej) populacji, dla której hipoteza zerowa jest dosłownie prawdziwa (lub jeśli jeszcze jej nie widziałeś i są tutaj tylko dla rozrywki statystycznej ), sprawdź Taniec Geoffa Cumminga $p$ Wartości . Jeśli te przedziały ufności nie są wystarczająco wąskie dla twojego gustu, próbowałem symulować niektóre z moich w R przy użyciu losowo generowanych próbek, po prostu nieśmiałych $n=1\rm M$ każdy z $\mathcal N(0,1)$ . Zapomniałem ustawić ziarno, ale ustawiłem, x=c()a następnie pobierałem x=append(x,replicate(500,cor(rnorm(999999),rnorm(999999))))tyle razy, ile chciałem, zanim ukończyłem tę odpowiedź, co dało mi w końcu 6000 próbek. Oto histogram i gęstość przy użyciu działka hist(x,n=length(x)/100)i plot(density(x))odpowiednio:

$\ \ \ \$

Jak można się spodziewać, istnieją dowody na istnienie różnych niezerowych efektów wynikających z tych losowych próbek populacji z dosłownie zerowym efektem, a te szacunki są mniej więcej normalnie rozmieszczone wokół prawdziwego parametru ( skew(x)= -005, kurtosis(x)= 2,85). Wyobraź sobie, że znasz swoją wartość szacunkową tylko z próby $n=1\rm M$ , a nie prawdziwy parametr: dlaczego miałbyś oczekiwać, że parametr będzie bliższy zeru niż szacunek zamiast dalej? Twój przedział ufności może zawierać wartość zerową, ale wartość zerowa nie jest tak naprawdę bardziej prawdopodobna niż wartość równoważnej odległości od wielkości efektu próbki w przeciwnym kierunku, a inne wartości mogą być bardziej prawdopodobne, szczególnie oszacowanie punktu!

Jeśli w praktyce chcesz wykazać, że efekt jest mniej więcej zerowy, musisz określić, o ile mniej więcej jesteś skłonny zignorować. Przy tych ogromnych próbkach, które zasymulowałem, oszacowałem największą wielkość, jaką wygenerowałem $|r|=.004$ . Z bardziej realistycznymi próbkami $n=999$ , największy spośród $1\rm M$ próbki jest $|r|=.14$ . Ponownie, reszty są zwykle rozłożone, więc są one mało prawdopodobne, ale chodzi o to, że nie są nieprawdopodobne.

CI jest prawdopodobnie bardziej przydatny do wnioskowania niż ogólnie NHST. Nie oznacza to tylko, jak źle może być założyć, że parametr jest pomijalnie mały; reprezentuje to dobre pojęcie o tym, czym właściwie jest ten parametr. Nadal można zdecydować, czy jest to nieistotne, ale można również zorientować się, jak może być nieistotne. Więcej informacji na temat przedziałów ufności można znaleźć w Cumming ⁽²⁰¹⁴^{, 2013)} .

_{Odniesienia

- Cumming, G. (2013). Zrozumienie nowych statystyk: wielkości efektów, przedziały ufności i metaanaliza . Routledge.

- Cumming, G. (2014). Nowe statystyki: dlaczego i jak. Psychological Science, 25 (7), 7–29. Źródło: http://pss.sagepub.com/content/25/1/7.full.pdf+html .}

— Nick Stauner
źródło

Dzięki, bardzo dobrze znam pracę Cumminga. Przypuszczam, że moje pytanie było bardziej wzdłuż linii „jeśli punkt ES oszacowanie jest nieistotna, można cis być wykorzystywane do wnioskowania (Albo są one«null»czyli bezużyteczny jako oszacowania punkt)?”

— ATJ

1

@ATJ: Ani oszacowanie punktowe, ani (

1 - α

$1-\alpha$ ) przedziały ufności dla parametru stają się „bezużyteczne”, gdy nie różnią się znacząco od zera (na poziomie

α

$\alpha$ ) lub zawierające odpowiednio zero.

— Scortchi - Przywróć Monikę

@ATJ: Jak powiedziałem, znaczenie [/ użyteczność] CI nie zmienia się w zależności od znaczenia jakiegokolwiek NHST. CI jest prawdopodobnie bardziej przydatny do wnioskowania niż ogólnie NHST ... reprezentuje dobre pojęcie o tym, czym właściwie jest ten parametr. Np. Właśnie pobiegłem cor.test(rnorm(9999999),rnorm(9999999))i dostałem CI

{- 0.00063, 0.00060}

$\{-0.00063,0.00060\}$ . Dlatego wnioskuję, że kiedy uruchomię go ponownie, mam 95% szans na uzyskanie nowej prognozy w tym zakresie. Ponownie uruchomiłem, moim zdaniem było

r = 0.00029

$r=0.00029$ ; moje wnioskowanie oparte na CI było słuszne! Wartość zerowa zdarza się z założenia, ale zamiast tego moje dowody faworyzują moje oszacowanie ...

— Nick Stauner