Teraz, gdy odrzuciłem hipotezę zerową, co dalej?

23

Raz po raz odrzucałem lub nie odrzucałem hipotezy zerowej. W przypadku braku odrzucenia sprawy dochodzisz do wniosku, że nie ma wystarczających dowodów na odrzucenie, i „kontynuujesz” (tj. Albo gromadzisz więcej danych, kończę eksperyment itp.)

Ale kiedy „odrzucasz” hipotezę zerową, dostarczając pewnych dowodów na alternatywną hipotezę, nie możesz tak naprawdę „udowodnić”, że twoja alternatywna hipoteza rzeczywiście jest prawdziwa.

Jakie są zatem kolejne wspólne kroki po odrzuceniu hipotezy zerowej? Jakie narzędzia / techniki stosuje się w celu „dalszej analizy problemu”, aby wnioski były bardziej rozstrzygające? Jakie są logiczne „kolejne kroki” jako statystyki uzasadniającej dalszą analizę?

Na przykład:

$H_0: \mu_1 = \mu_0$

$H_1: \mu_1 > \mu_0$ (powiedzmy, że znamy oczekiwany kierunek)

Po odrzuceniu hipotezy zerowej na pewnym poziomie istotności mamy „pewne dowody” na to, że alternatywa jest prawdziwa, ale nie możemy wyciągnąć takiego wniosku. Jeśli naprawdę chcę wyciągnąć ostateczny wniosek (wybacz grę podwójną), co powinienem zrobić?

Nigdy nie zastanawiałem się nad tym pytaniem podczas moich studiów licencjackich, ale teraz, gdy robię sporo testów hipotez, nie mogę się nie zastanawiać, co dalej :)

hypothesis-testing

— Doktorat
źródło

2

Być może interesujące: dlaczego „statystycznie znaczący” nie wystarczy?

— gung - Przywróć Monikę

3

Ogólnie rzecz biorąc, twoje działania po podjęciu decyzji powinny być również wybrane przed przetestowaniem (jak inaczej możesz zważyć koszty dwóch rodzajów błędów, a więc wybrać rozsądny ?). Przynajmniej prawdopodobnie przejdziesz do rozważenia szacowanych rozmiarów efektów. Wartość null nie jest możliwa do utrzymania (według wybranych przez ciebie kryteriów - jeśli to nie wystarczy, co byś był?), Więc jakie wartości są zamiast tego prawdopodobne? np. we wskazanym teście, jakie wartości dla byłyby rozsądnie prawdopodobne, biorąc pod uwagę dane?

α

$\alpha$

μ_{1} - μ_{0}

$\mu_1-\mu_0$

— Glen_b

10

Zasadniczo możesz nadal poprawiać swoje oszacowanie dowolnego parametru, który testujesz, używając większej ilości danych. Zatrzymanie gromadzenia danych, gdy test osiągnie jakiś pół-arbitralny poziom znaczenia, jest dobrym sposobem na wyciągnięcie złych wniosków. To, że analitycy mogą źle zrozumieć znaczący wynik jako znak, że zadanie zostało wykonane, jest jedną z wielu niezamierzonych konsekwencji struktury Neyman-Pearson, zgodnie z którą ludzie interpretują wartości p jako przyczynę odrzucenia lub odrzucenia wartości zerowej bez zastrzeżeń w zależności od po której stronie progu krytycznego spadają.

Bez uwzględnienia bayesowskich alternatyw dla paradygmatu częstych (mam nadzieję, że ktoś inny to zrobi), przedziały ufności nadal są bardziej pouczające, znacznie powyżej punktu, w którym można odrzucić podstawową hipotezę zerową. Zakładając, że zebranie większej ilości danych sprawi, że Twój podstawowy test istotności osiągnie jeszcze większe znaczenie (i nie ujawni, że twoje wcześniejsze ustalenie istotności było fałszywie dodatnie), możesz uznać to za bezużyteczne, ponieważ i tak odrzucisz wartość null. Jednak w tym scenariuszu przedział ufności wokół danego parametru nadal będzie się zmniejszał, co poprawi stopień pewności, z jakim można precyzyjnie opisać interesującą cię populację.

Oto bardzo prosty przykład w r - testowanie hipotezy zerowej, że dla zmiennej symulowanej: $\mu=0$

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

Tutaj właśnie użyłem t.test(rnorm(99))i zdarzyło mi się uzyskać fałszywie dodatni (zakładając, że domyślnie wybrałem jako mój wybór akceptowalnego fałszywie dodatniego poziomu błędu). Jeśli zignoruję przedział ufności, mogę stwierdzić, że moja próbka pochodzi z populacji, której średnia różni się znacznie od zera. Technicznie przedział ufności też tego nie kwestionuje, ale sugeruje, że średnia może być bardzo bliska zeru, a nawet dalej od niego, niż sądzę na podstawie tej próbki. Oczywiście wiem, że wartość null jest tutaj dosłownie prawdziwa, ponieważ średnia populacji domyślnie wynosi zero, ale rzadko znamy rzeczywiste dane. $\alpha=.05$ rnorm

Ponowne set.seed(8);t.test(rnorm(99,1))uruchomienie tego, ponieważ daje średnią próbną 0,91, p = 5,3 E-13 i 95% przedział ufności dla . Tym razem mogę być całkiem pewny, że wartość null jest fałszywa, zwłaszcza że skonstruowałem ją tak, ustawiając średnią moich symulowanych danych na 1. $\mu=[.69,1.12]$

Powiedzmy jednak, że ważne jest, aby wiedzieć, jak różni się ona od zera; może średnia 0,8 byłaby zbyt bliska zeru, aby różnica miała znaczenie. Widzę, że nie mam wystarczającej ilości danych, aby wykluczyć możliwość, że zarówno z mojego przedziału ufności, jak iz testu t za pomocą , co daje p = 0,33. Moja średnia próbki jest wystarczająco wysoka, aby wydawać się znacząco różna od zera zgodnie z tym progiem 0,8; zebranie większej ilości danych może zwiększyć moją pewność, że różnica jest co najmniej tak duża, a nie tylko nieznacznie większa od zera. $\mu=.8$ mu=.8

Ponieważ „zbieram dane” poprzez symulację, mogę być trochę nierealistyczny i zwiększać rozmiar mojej próbki o rząd wielkości. Uruchomienie set.seed(8);t.test(rnorm(999,1),mu=.8)ujawnia, że więcej danych jest nadal użytecznych po odrzuceniu hipotezy zerowej w tym scenariuszu, ponieważ mogę teraz odrzucić zerową wartość w mojej większej próbce. Przedział ufności wynoszący sugeruje nawet, że mógłbym odrzucić hipotezy zerowe do gdybym początkowo chciał to zrobić. $\mu=0$ $\mu=.8$ $\mu=[.90,1.02]$ $\mu=.89$

Nie mogę zrewidować mojej hipotezy zerowej po tym fakcie, ale bez gromadzenia nowych danych w celu przetestowania jeszcze silniejszej hipotezy po tym wyniku, mogę z 95% pewnością stwierdzić, że powtórzenie mojego „badania” pozwoliłoby mi odrzucić . Ponownie, tylko dlatego, że mogę to łatwo zasymulować, uruchomię ponownie kod jako : robienie tego pokazuje, że moja pewność siebie nie została źle umiejscowiona. $H_0:\mu=.9$ set.seed(9);t.test(rnorm(999,1),mu=.9)

Testowanie coraz bardziej rygorystycznych hipotez zerowych, lub jeszcze lepiej, po prostu skupianie się na zmniejszaniu przedziałów ufności to tylko jeden ze sposobów. Oczywiście większość badań, które odrzucają hipotezy zerowe, stanowią podstawę dla innych badań opartych na hipotezie alternatywnej. Na przykład, gdybym testował alternatywną hipotezę, że korelacja jest większa od zera, mógłbym następnie przetestować mediatorów lub moderatorów w kolejnym badaniu ... a gdy już to robię, zdecydowanie chciałbym się upewnić Mógłbym odtworzyć oryginalny wynik.

Innym podejściem do rozważenia jest testowanie równoważności . Jeśli chcesz dojść do wniosku, że parametr mieści się w pewnym zakresie możliwych wartości, a nie tylko różni się od pojedynczej wartości, możesz określić zakres wartości, w których parametr ma się mieścić zgodnie z tradycyjną alternatywną hipotezą, i przetestować go przeciw innemu zestawowi hipotez zerowych, które razem reprezentują możliwość, że parametr leży poza tym zakresem. Ta ostatnia możliwość może być najbardziej podobna do tej, o której myślisz, pisząc:

Mamy „pewne dowody” na to, że alternatywa jest prawdziwa, ale nie możemy wyciągnąć takiego wniosku. Jeśli naprawdę chcę wyciągnąć ostateczny wniosek ...

Oto przykład wykorzystujący podobne dane jak powyżej (użycie set.seed(8), rnorm(99)jest takie samo jak rnorm(99,1)-1, więc średnia próbki to -.09). Powiedzmy, że chcę przetestować hipotezę zerową dwóch jednostronnych testów T, które łącznie zakładają, że średnia próbki nie mieści się w przedziale od -2 do .2. To luźno odpowiada założeniu z poprzedniego przykładu, zgodnie z którym chciałem sprawdzić, czy . Różnica polega na tym, że zmniejszyłem swoje dane o 1 i teraz zamierzam wykonać dwa jednostronne testy alternatywnej hipotezy, że . Oto jak to wygląda: $\mu=.8$ $-.2\le\mu\le.2$

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tostustawia poziom ufności przedziału na 90%, więc przedział ufności wokół średniej próbki -09 wynosi , a p = 0,17. Ponowne uruchomienie tego polecenia z (i tym samym ziarnem) zmniejsza jednak 90% przedział ufności do , który mieści się w zakresie równoważności określonym w hipotezie zerowej przy p = 4,55E-07. $\mu=[-.27,.09]$ rnorm(999) $\mu=[-.09,.01]$

Nadal uważam, że przedział ufności jest bardziej interesujący niż wynik testu równoważności. Reprezentuje to, co dane sugerują, że średnia populacji jest bardziej konkretna niż hipoteza alternatywna, i sugeruje, że mogę być całkiem pewny, że mieści się ona w jeszcze mniejszym przedziale niż podałem w hipotezie alternatywnej. Aby to zademonstrować, jeszcze raz wykorzystam moje nierealistyczne moce symulacji i „ powielę ” używając set.seed(7);tost(rnorm(999),epsilon=.09345092): na pewno, p = 0,002.

— Nick Stauner
źródło

Oświecające! Czy możesz podać szybki i nieprzyzwoity przykład ostatniej części, w której mówisz o testach równoważności? Byłoby naprawdę pomocne zobaczyć na wysokim poziomie, w jaki sposób można to zastosować.

— Dr

@PhD: gotowe. Myślę jednak, że jest bardziej „szybki i brudny” niż „na wysokim poziomie”. Sam jestem nowy w testowaniu równoważności i jak się przekonacie, nie jestem do końca sprzedawany.

— Nick Stauner

10

Zauważ najpierw, że @Nick Stauner przedstawia kilka bardzo ważnych argumentów dotyczących opcjonalnego zatrzymania . Jeśli wielokrotnie testujesz dane w miarę wchodzenia próbek, zatrzymanie się, gdy test będzie znaczący, gwarantuje osiągnięcie znaczącego wyniku. Jednak gwarantowany wynik jest praktycznie bezwartościowy.

Poniżej przedstawię moje najlepsze próby wypracowania stanowiska dedukcyjnego, sceptycznego i falsyfikacjonistycznego. Z pewnością nie jest to jedyny, ale myślę, że jest to raczej główny nurt lub przynajmniej trochę tradycji.

O ile rozumiem, Fisher początkowo wprowadził testy istotności jako pierwszy krok w eksploracji danych - ustal, które czynniki mogą być warte dalszych badań. O ile hipoteza zerowa, którą przetestowałeś, nie była krytyczną hipotezą, na której opierała się twoja ulubiona teoria (mało prawdopodobna), w pewnym sensie twój początkowy test miał raczej charakter eksploracyjny. Wśród możliwych kroków po eksploracji widzę

Dalsza eksploracja
Oszacowanie parametru
Prognozy i potwierdzenie

Dalsza eksploracja polega na dalszych testach, w których próbujesz wywnioskować, czy jakieś zmienne mają informacje na temat moderacji lub wpływają na twój efekt. Na przykład, może wiek uczestników odgrywa rolę? Zauważ, że takie analizy muszą być wyraźnie oznaczone jako eksploracyjne lub w zasadzie sprowadzają się do kłamstwa. Jeśli natkniesz się na coś, najpierw wymaga potwierdzenia. Ogólnie rzecz biorąc, zawsze powinieneś być jasny - zarówno w swoich myślach, jak i w swoich pismach - o tym, kiedy pracujesz w eksploracji i kiedy potwierdzasz.

Następnie, gdy zostanie stwierdzone, że nie masz zaufania do wartości jednego parametru za bycie dokładnie zera - kiedy już zdecydował będziesz teraz wziąć pod uwagę czynnik badany mieć jakiś wpływ - jeden wykonalne Następnym krokiem mogłoby być dalsze oszacowanie dokładnej wartości parametru . Na przykład na razie wykluczyłeś tylko jedną wartość, 0 (zakładając dwustronny test). Twoje dane podają jednak w wątpliwość wiele innych możliwych wartości.

$\alpha$ $\alpha$

Hume stwierdził, że nigdy nie możemy indukcyjnie udowodnić poprawności stwierdzenia. Ogólnie rzecz biorąc, nietrywialne hipotezy są zawsze o wiele łatwiejsze do sfałszowania niż poparcia; bycie łatwym do zafałszowania w zasadzie (poprzez bycie trywialnym, dokonywanie precyzyjnych prognoz), ale jeszcze nie bycie sfałszowanym do tej pory jest w rzeczywistości jedną z najwyższych zalet teorii.

Tak więc CI nie zmusi cię do udowodnienia określonej wartości. Jednak zawęża zestaw kandydatów. Być może pozostali przy życiu pozostali kandydaci pomagają w podjęciu decyzji między dwiema teoriami niezgodnymi z H0. Na przykład być może 0 jest wykluczone, ale teoria 1 przewiduje wartość około 5, a teoria 2 przewiduje wartość około 15. Jeśli twoje 95% CI obejmuje 5, ale wyklucza 15, straciłeś także zaufanie do teorii 2, ale teorii 1 pozostaje w grze. Zauważ, że jest to faktycznie niezależne od tego, czy początkowy test jest znaczący - nawet jeśli 0 jest spośród wartości, które nie zostały odrzucone, wiele wartości zostanie odrzuconych. Być może dla niektórych innych badaczy niektóre z tych wartości były interesujące.

Po tym, jak w jakiś sposób sprecyzujesz swoje rozumienie danego efektu, możesz idealnie dokładniej przewidzieć dalszy eksperyment potwierdzający, który miałby na celu przetestowanie bardziej precyzyjnej hipotezy, którą możesz wyciągnąć z bieżącej analizy. Trzeba przyznać, że odrzucenie początkowej statystycznej hipotezy zerowej nie było tak surowe jak test oryginalnej hipotezy badawczej , prawda? O wiele więcej wyjaśnień niż to, które preferujesz, nie zależy od H0. Ponadto, ponieważ nigdy nie groziło ci zaakceptowanie H0, nie mogłeś sfałszować swojej ulubionej teorii! Potrzebujesz bardziej surowego testu. Prawdopodobnie właśnie tego chcesz; nie chcesz udowodnić swojej teorii, chcesz poddać ją coraz surowszym testom, próbując ją sfałszować. Wytrzymanie tak autentycznych (ale uczciwych) wysiłków zmierzających do obalenia go jest najlepszym, co może dostarczyć teoria. Ale dla surowego testu potrzebujesz bardziej precyzyjnej teorii niż „0 nie jest”.

Nauczyłeś się wielu ważnych faktów dotyczących badania potwierdzającego; na przykład masz pojęcie o wariancji i wielkości efektu, co pozwala oszacować wymaganą wielkość próbki do dalszych badań za pomocą analizy mocy. Możesz również przewidzieć konkretną wartość i założyć wokół niej region praktycznej równoważności / LINY. Nigdy nie będziesz w stanie udowodnić, że ta konkretna wartość jest wartością prawdziwą; jednak jeśli CI z eksperymentu kontrolnego mieści się całkowicie w LINIE, masz potwierdzające dowody na twoją teorię (i prawdopodobnie spowodowałeś kłopoty z konkurencją).

— jona
źródło

6

Pomysł, że nie można udowodnić pozytywnej naukowej propozycji, a jedynie ją obalić, jest zasadą fałszerstwa Poppera . Zgadzam się, że nie można udowodnić, że efekt jest dokładnie równy dowolnej podanej wartości punktowej (por. Moja odpowiedź tutaj: dlaczego statystycy twierdzą, że nieistotny wynik oznacza „nie można odrzucić wartości zerowej” w przeciwieństwie do przyjęcia hipotezy zerowej? ). No i co z tego?

$p$ -wartości są często źle rozumiane, a testy hipotez są używane do zadań, których logicznie nie są w stanie wykonać. Na przykład testowanie hipotez nie powinno być wykorzystywane do generowania hipotez lub wybierania zmiennych. Co więcej, w przypadku danych obserwacyjnych zasadniczo wszystkie hipotezy zerowe muszą być fałszywe, więc ich testowanie nie ma sensu. Jednak naukowcy często mają hipotezy a priori sugerowane przez obecne teorie, które chcą przetestować, aw prawdziwym eksperymencie zero może być prawdziwe, więc testowanie go jest całkowicie uzasadnione. Zazwyczaj badacze mają pewne powody, by podejrzewać, że wartość null może być fałszywa, więc znaczący wynik w połączeniu z silnym eksperymentem stanowi ważną informację.

Zawsze możesz tworzyć przedziały ufności, aby uzyskać wyraźniejszy obraz precyzji oszacowania, i nadal gromadzić więcej danych w celu zwiększenia jego precyzji. Niemniej jednak, z ekonomicznego punktu widzenia, będziesz otrzymywać malejące zyski . W pewnym momencie po prostu nie wierzysz, że hipoteza zerowa zapewnia rozsądny opis badanego zjawiska. W takim razie, dlaczego przeszkadzasz?

Jeśli w Twojej dziedzinie są jeszcze inni, którzy nie są jeszcze przekonani, ale mieliby więcej (takich samych) danych, możesz kontynuować, ale wydaje się to rzadką sytuacją. Wydaje mi się bardziej prawdopodobne, że sceptycy mają inne merytoryczne obawy dotyczące tego, czy ta linia dochodzenia jest wystarczająco informacyjna na temat pytania podstawowego. Dlatego musisz określić charakter tych obaw, a jeśli uważasz, że zasługują one na pracę, poszukaj różnych danych, które w bardziej odpowiedni sposób dotyczą omawianych problemów. Na przykład możesz spróbować powtórzyć znalezisko przy użyciu innej miary, w innym ustawieniu i / lub przy różnych warunkach kontroli.

Z drugiej strony wszyscy (mniej lub bardziej) mogą być zadowoleni z twoich danych i wniosków (gratulacje!). W tak szczęśliwych okolicznościach możesz realizować swój program badawczy w dwóch kierunkach:

Podejście redukcjonistyczne dąży do zrozumienia mechanizmów, które wywołują ustalony przez ciebie efekt. W kategoriach statystycznych często poszukujesz mediatorów i / lub dopracowujesz wzór sił przyczynowych łączących zmienne , które okazały się powiązane.
$B$ $C$ $A$ $A$

tl; dr: Jeśli masz wystarczające dowody na to, że zero jest fałszywe, dowiedz się, na jakie inne teoretycznie uzasadnione pytania możesz spróbować odpowiedzieć i przejść dalej.

— gung - Przywróć Monikę
źródło

0

Chciałbym dodać, że twoje pytanie przypomina mi moje młodsze ja: desperacko chciałem udowodnić swoją hipotezę, ponieważ nie umiałem napisać „hipoteza była błędna” w sposób, który pomógł poprawić pisany przeze mnie artykuł . Ale potem zdałem sobie sprawę, że „cholera, mojej absolutnie uroczej hipotezy nie można udowodnić” ma również wartość naukową: 1. Pomyśl, DLACZEGO twoja hipoteza nie zawiera wody. To jakiś problem z danymi, czy może coś z samą hipotezą? 2. Jakie są konsekwencje dla starszych badań?

Jako przykład: napisałem pracę magisterską na temat konfleksji etnicznej, używając nowego wówczas zbioru danych, który był większy niż poprzednie zbiory danych. Przetestowałem kilka spornych hipotez, takich jak „konflikt etniczny paliw naftowych” lub „regiony górskie są bardziej narażone na konflikt doświadczalny”. Nie mogłem udowodnić, że ropa naftowa napędza konflikt etniczny - ale napisałem dwie strony o tym, jak jakość dostępnego zestawu danych na temat ropy wpłynęła na analizę (sam zestaw danych jest szeregiem czasowym, zestaw danych na temat odwiertu nie jest). Teza „góry powodują konflikty” również okazała się porażką - ale owocna: poprzednie badania analizowały tę tezę na podstawie danych na poziomie kraju (np. Średnia wysokość kraju lub mniej więcej),

Pamiętaj: obalenie hipotezy nie jest porażką, ale wynikiem tak dobrym, jak udowodniona hipoteza.

— Christian Sauer
źródło

Wspomniane hipotezy nie są (konwencjonalnymi) hipotezami zerowymi. Myślę, że mogłeś przegapić punkt PO.

— Nick Stauner

0

Istnieje metoda przeczesywania prawdopodobieństwa we wszystkich opisanych tutaj badaniach . Nie należy stosować formuły na ślepo bez uwzględnienia wzorca wyników.

— David Lane
źródło