Testy dwustronne… Po prostu nie jestem przekonany. Jaki jest sens?

59

Poniższy fragment pochodzi z wpisu: Jakie są różnice między testami jednostronnymi i dwustronnymi? , na stronie pomocy dotyczącej statystyk UCLA.

... rozważ konsekwencje pominięcia efektu w innym kierunku. Wyobraź sobie, że opracowałeś nowy lek, który Twoim zdaniem stanowi ulepszenie w stosunku do istniejącego leku. Chcesz zmaksymalizować swoją zdolność do wykrycia poprawy, więc zdecyduj się na jednostronny test. W ten sposób nie testujesz możliwości, że nowy lek jest mniej skuteczny niż istniejący lek.

Po zapoznaniu się z absolutnymi podstawami testowania hipotez i przejściu do części o testach jeden na dwóch ogoniastych ... Rozumiem podstawową matematykę i zwiększoną zdolność wykrywania testów jednoetapowych itp. Ale po prostu nie mogę owinąć głowy wokół jednej rzeczy ... Jaki jest sens? Naprawdę nie rozumiem, dlaczego powinieneś podzielić swoją alfa na dwie skrajności, kiedy twój próbka jest wynikiem tylko jednego lub drugiego, albo żadnego.

Weź przykładowy scenariusz z cytowanego powyżej tekstu. Jak możesz „nie przetestować” wyniku w przeciwnym kierunku? Masz na myśli swoją próbkę. Masz na myśli swoją populację. Prosta arytmetyka mówi ci, która jest wyższa. Co jest do przetestowania lub nie do przetestowania w przeciwnym kierunku? Co Cię powstrzymuje, gdy zaczynasz od zera z hipotezą przeciwną, jeśli wyraźnie widzisz, że średnia próbki jest daleko w innym kierunku?

Kolejny cytat z tej samej strony:

Wybór testu jednostronnego po uruchomieniu testu dwustronnego, który nie odrzucił hipotezy zerowej, nie jest właściwy, bez względu na to, jak „zbliżony” do znaczącego był test dwustronny.

Zakładam, że dotyczy to również zmiany polaryzacji testu jednostronnego. Ale w jaki sposób ten „udokumentowany” wynik jest mniej ważny, niż gdybyś po prostu wybrał właściwy test jednostronny?

Najwyraźniej brakuje mi tutaj dużej części zdjęcia. To wszystko wydaje się zbyt arbitralne. Który jest, jak sądzę, w tym sensie, że to, co oznacza „statystycznie znaczące” - 95%, 99%, 99,9%… jest na początku arbitralne.

hypothesis-testing statistical-significance inference

— Z popiołów
źródło

18

Wydaje mi się, że to bardzo dobre pytanie, +1.

— Gung - Przywróć Monikę

5

Chociaż jest absolutnie jasne, że powinieneś zaprojektować eksperyment i testy przed zebraniem danych, uważam ich przykład za narkotyki raczej intrygujący, biorąc pod uwagę fakt, że nowe leki są często testowane za pomocą testu jednostronnego bez większego oburzenia .

— P-Gn

3

@ user1735003 ironiczny artykuł, na który można się natknąć, biorąc pod uwagę wiele prób farmaceutycznych regulujących nastrój / zachowanie, które są coraz bardziej badane pod kątem stronniczości obserwatorów. Tutaj ciekawy Cochrane na Ritalinie . „Twierdzona wyższość placebo” to, co każdy trialista nazwałby „krzywdą”, więc nie uważam, że jest to w najmniejszym stopniu niemożliwe. Ale w tych badaniach, jeśli badania zatrzymają się na szkodę, sygnał pochodzi od zdarzeń niepożądanych.

— AdamO

10

„Masz średnią z próby. Masz średnią z populacji ... Co Cię powstrzymuje, gdy zaczynasz od zera z hipotezą przeciwną, jeśli wyraźnie widzisz, że średnia z próbki jest daleko w innym kierunku?” . Nie, cały sens testowania hipotez polega na tym, że nie masz średniej populacji i używasz średniej próby do przetestowania założenia o średniej populacji (hipoteza zerowa). Nie ma więc „wyraźnego przekonania, że średnia próbki jest daleka” , ponieważ jest to dokładnie to, co testujesz, a nie dane.

— StAtS

1

kłopot polega na tym, że często nie znasz polaryzacji, więc musisz przeprowadzić test dwustronny. wyobraź sobie podłączanie woltomierza do zasilacza prądu stałego, gdy nie wiesz, która wtyczka jest POZYTYWNA

— Aksakal

46

Pomyśl o danych jak o wierzchołku góry lodowej - wszystko, co możesz zobaczyć nad wodą, to wierzchołek góry lodowej, ale w rzeczywistości jesteś zainteresowany nauczeniem się czegoś o całej górze lodowej.

Statystycy, naukowcy zajmujący się danymi i inni pracujący z danymi starają się nie dopuścić, aby to, co widzą nad linią wody, wpłynęło na ich ocenę tego, co jest ukryte pod linią wody. Z tego powodu, w sytuacji testowania hipotez, mają tendencję do formułowania swoich zerowych i alternatywnych hipotez, zanim zobaczą wierzchołek góry lodowej, w oparciu o ich oczekiwania (lub ich brak) co do tego, co mogłoby się stać, gdyby mogli zobaczyć górę lodową w całości .

Patrzenie na dane w celu sformułowania twoich hipotez jest kiepską praktyką i należy tego unikać - to jak stawianie wózka przed koniem. Przypomnij sobie, że dane pochodzą z jednej wybranej próbki (mam nadzieję, że za pomocą losowego mechanizmu selekcji) z docelowej populacji / wszechświata będącego przedmiotem zainteresowania. Próbka ma swoje osobliwości, które mogą, ale nie muszą, odzwierciedlać populację podstawową. Dlaczego chcesz, aby twoje hipotezy odzwierciedlały wąski wycinek populacji zamiast całej populacji?

Innym sposobem myślenia o tym jest to, że za każdym razem, gdy wybierzesz próbkę z populacji docelowej (przy użyciu mechanizmu losowego wyboru), próbka da inne dane. Jeśli użyjesz danych (których nie powinieneś !!!), aby poprowadzić specyfikację hipotez zerowych i alternatywnych, twoje hipotezy będą rozłożone na całej mapie, zasadniczo oparte na specyficznych cechach każdej próbki. Oczywiście w praktyce pobieramy tylko jedną próbkę, ale bardzo niepokojąca byłaby myśl, że gdyby ktoś inny przeprowadził to samo badanie z inną próbką o tej samej wielkości, musiałby zmienić swoje hipotezy, aby odzwierciedlić rzeczywistość ich próbka.

Jeden z moich absolwentów szkoły miał bardzo mądre powiedzenie: „Nie obchodzi nas próbka, z wyjątkiem tego, że mówi nam coś o populacji” . Chcemy sformułować nasze hipotezy, aby dowiedzieć się czegoś o populacji docelowej, a nie o jednej próbie, którą wybraliśmy z tej populacji.

— Isabella Ghement
źródło

1

@ subhashc.davar: To, że nie widzisz trafności mojej odpowiedzi, nie oznacza, że ktoś inny tego nie zrobi. Pamiętaj, że odpowiedzi dotyczą całej społeczności, a nie tylko osoby, która zadała pytanie. Z przyjemnością usunę moją odpowiedź, jeśli sądzisz o tym.

— Isabella Ghement

7

@ subhashc.davar Przykład może pomóc: powiedz, że testujesz, czy przekąska wpływa na wydajność. Przeprowadzasz eksperyment i znajdujesz niewielki wzrost wyniku w przekąskach. Wspaniały! Uruchom test jednostronny, aby sprawdzić, czy przekąski> nie przekąski. Problem: co byś zrobił, gdybyś pobrał próbkę, w której przekąski wypadły gorzej? Czy zrobiłbyś jednostronny test dla przekąsek <nie-przekąsek? Jeśli tak, popełniasz błąd i pozwalasz przykładowym specyfikom kierować testowaniem.

— RM

21

Anegdota od mojego profesora: „Odwiedziliśmy noworodkową córkę przyjaciela na oddziale położniczym. 20 dzieci i 18 z 20 nosiło różowe kapelusze. Zrobiłem więc to, co zrobiłby każdy statystyk: obliczono wartość p dla płci w rzeczywistości wynoszącą 50 / 50. To było bardzo istotne statystycznie. Więc kto chce napisać ten artykuł ze mną? Nikt? Dlaczego? Nie możesz użyć danych, które wygenerowały hipotezę do przetestowania hipotezy. "

— AdamO

4

@AdamO Twój komentarz jest lepszym wyjaśnieniem niż sama odpowiedź. Sformułowałbym ostatnie zdanie w brzmieniu: „Nie powinieneś używać tych samych danych, z którymi wygenerowałeś swoją hipotezę, aby również przetestować swoją hipotezę”. Powiązaną implikacją jest to, że dobrze jest zmienić swoją hipotezę w oparciu o wynik dowolnego testu, który wcześniej wybrałeś. Ale powinieneś przetestować swoją nową hipotezę przy użyciu nowych danych.

— Kenny Evitt

3

@KennyEvitt tak dokładnie tak. Przypadkowe ustalenia są ważne i należy je zgłaszać, ale nie należy ich sprzedawać jako uprzednio określonych hipotez.

— AdamO

18

Wydaje mi się, że rozważając twoje pytanie, warto pamiętać o celu / punktach sprzedaży testowania istotności zerowej (NHST); to tylko jeden paradygmat (aczkolwiek bardzo popularny) do wnioskowania statystycznego, a inne mają również swoje mocne strony (np. patrz tutaj, aby omówić NHST w odniesieniu do wnioskowania bayesowskiego). Jaki jest największy atut NHST ? : Kontrola błędów w długim okresie . Jeśli postępujesz zgodnie z zasadami NHST (a czasem jest to bardzo duże, jeśli), powinieneś dobrze wiedzieć, w jakim stopniu możesz się mylić z wyciągniętymi wnioskami na dłuższą metę.

Jedną z persnickety reguł NHST jest to, że bez dalszych zmian w procedurze testowania, możesz tylko rzucić okiem na test zainteresowania. Badacze w praktyce często ignorują tę zasadę (lub nie są jej świadomi) (patrz Simmons i in., 2012), przeprowadzając wiele testów po dodaniu fal danych, sprawdzając ich $p$ -wartości po dodaniu / usunięciu zmiennych do swoich modeli itp. Problem polega na tym, że badacze rzadko są neutralni w odniesieniu do wyników NHST; są w pełni świadomi, że znaczące wyniki będą częściej publikowane niż nieistotne (z powodów zarówno błędnych, jak i uzasadnionych; Rosenthal, 1979). Dlatego badacze są często motywowani do dodawania danych / poprawiania modeli / wybierania wartości odstających i wielokrotnego testowania, aż „odkryją” znaczący efekt (patrz John i in., 2011, dobre wprowadzenie).

Problem sprzeczny z intuicją tworzony jest przez powyższe praktyki, ładnie opisane w Dienes (2008): jeśli badacze będą dostosowywać swoją próbkę / projekt / modele, aż do osiągnięcia istotności, to pożądane długoterminowe poziomy błędów wyników fałszywie dodatnich (często ) i wyniki fałszywie ujemne (często ) będą zbliżały się odpowiednio do wartości 1,0 i 0,0 (tj. zawsze , zarówno gdy jest to fałsz, jak i gdy jest to prawda). $\alpha =.05$ $\beta =.20$ $H_0$

W kontekście konkretnych pytań badacze używają testów dwustronnych jako domyślnych, gdy nie chcą dokonywać konkretnych prognoz dotyczących kierunku efektu. Jeśli się mylą i przeprowadzą jednostronny test w kierunku efektu, ich długookresowa wartość zostanie napompowana. Jeśli spojrzą na statystyki opisowe i przeprowadzą jednostronny test na podstawie ich spojrzenia na trend, ich długoterminowa wartość zostanie zawyżona. Może się wydawać, że nie jest to duży problem w praktyce, że wartości tracą swoje długoterminowe znaczenie, ale jeśli nie zachowają swojego znaczenia, nasuwa się pytanie, dlaczego stosujesz podejście do wnioskowania, że priorytetem jest kontrola błędów w długim okresie. $\alpha$ $\alpha$ $p$

Na koniec (i ze względu na osobiste preferencje) miałbym mniejszy problem, gdybyś najpierw przeprowadził dwustronny test, stwierdził, że nie ma on znaczenia, a następnie wykonałby test jednostronny w kierunku sugerowanym przez pierwszy test, i okazało się, że jest to znaczące, jeśli (i tylko wtedy) wykonałeś ścisłą potwierdzającą replikację tego efektu w innej próbce i opublikowałeś replikację w tym samym artykule. Eksploracyjna analiza danych - z elastyczną analizą zwiększającą współczynnik błędów - jest w porządku, o ile jesteś w stanie odtworzyć swój efekt w nowej próbce bez tej samej elastyczności analitycznej.

Bibliografia

Dienes, Z. (2008). Zrozumienie psychologii jako nauki: wprowadzenie do wnioskowania naukowego i statystycznego . Palgrave Macmillan.

John, LK, Loewenstein, G., i Prelec, D. (2012). Mierzenie rozpowszechnienia wątpliwych praktyk badawczych z zachętami do mówienia prawdy. Nauki psychologiczne , 23 (5), 524–532.

Rosenthal, R. (1979). Problem z szufladą plików i tolerancja dla pustych wyników. Biuletyn psychologiczny , 86 (3), 638.

Simmons, JP, Nelson, LD i Simonsohn, U. (2011). Fałszywie pozytywna psychologia: Nieujawniona elastyczność w gromadzeniu i analizie danych pozwala przedstawić wszystko jako tak znaczące. Nauki psychologiczne , 22 (11), 1359-1366.

— jsakaluk
źródło

Bardzo miła odpowiedź. Pomógł mi zebrać pewne obawy, które miałem podczas ostatniego zagłębiania się w prace badawcze (jako laik), pozornie potwierdzając ideę, że jednostronnym wartościom p można „zaufać” tylko, jeśli masz uzasadnione powody, by być pewnym korelacja ”kierunek jest fałszywy.

— Venryx,

10

Niestety motywujący przykład rozwoju narkotyków nie jest dobry, ponieważ nie robimy tego, aby opracowywać leki. Stosujemy różne, bardziej rygorystyczne zasady, aby przerwać badanie, jeśli trendy są po stronie szkody. Jest to związane z bezpieczeństwem pacjentów, a także dlatego, że jest mało prawdopodobne, aby lek magicznie przechylił się w kierunku znaczącej korzyści.

Dlaczego więc przeprowadzane są dwa testy ? (kiedy w większości przypadków mamy a priori wyobrażenie o możliwym kierunku działania, próbujemy modelować)

Hipoteza zerowa powinna w pewien sposób przypominać wiarę w sens bycia wiarygodnym, poinformowanym i uzasadnionym. W większości przypadków ludzie zgadzają się, że „nieciekawy wynik” występuje, gdy występuje efekt 0, podczas gdy negatywny lub pozytywny efekt jest równy. Bardzo trudno jest sformułować złożoną hipotezę zerową, np. W przypadku, gdy wiemy, że statystyka może być równa lubmniej niż pewna ilość. Trzeba jasno powiedzieć o zerowej hipotezie, aby zrozumieć ich odkrycia naukowe. Warto zauważyć, że sposób przeprowadzania złożonego testu hipotez polega na tym, że statystyka pod hipotezą zerową przyjmuje najbardziej spójną wartość w zakresie obserwowanych danych. Jeśli więc efekt jest zgodny z oczekiwaniami, przyjmuje się, że wartość zerowa i tak wynosi 0, i niepotrzebnie poddaliśmy pod dyskusję.

Dwustronny test oznacza przeprowadzenie dwóch testów jednostronnych z kontrolą dla wielu porównań! Test dwustronny jest w rzeczywistości częściowo ceniony, ponieważ w dłuższej perspektywie okazuje się bardziej konserwatywny. Gdy mamy dobre przekonanie co do kierunku działania, testy z dwoma stronami przyniosą fałszywie dodatnie wyniki o połowę tak często, przy bardzo niewielkim ogólnym wpływie na moc.

W przypadku oceny leczenia w randomizowanym, kontrolowanym badaniu, gdybyś próbował sprzedać mi jednostronny test, powstrzymałbym cię od pytania: „Cóż, poczekaj, dlaczego uważamy, że leczenie jest rzeczywiście szkodliwe? Czy istnieją dowody poprzeć to? Czy jest nawet ekwipunek [umiejętność wykazania korzystnego efektu]? ” Logiczna niespójność stojąca za jednostronnym testem stawia pod znakiem zapytania całe badanie. Jeśli naprawdę nic nie wiadomo, każda wartość inna niż 0 jest uważana za interesującą, a test dwustronny nie jest tylko dobrym pomysłem, jest konieczny.

— AdamO
źródło

8

Jednym ze sposobów podejścia jest chwilowe zapomnienie o testowaniu hipotez i zamiast tego zastanowienie się nad przedziałami ufności. Testy jednostronne odpowiadają jednostronnym przedziałom ufności, a testy dwustronne odpowiadają dwustronnym przedziałom ufności.

Załóżmy, że chcesz oszacować średnią populacji. Oczywiście bierzesz próbkę i obliczasz średnią próbki. Nie ma powodu, aby przyjmować oszacowanie punktowe według wartości nominalnej, więc wyrażasz swoją odpowiedź w kategoriach przedziału, w którym masz pewność, że zawiera prawdziwy środek. Jaki rodzaj interwału wybierasz? Dwustronny interwał jest zdecydowanie bardziej naturalnym wyborem. Przedział jednostronny ma sens tylko wtedy, gdy po prostu nie zależy ci na znalezieniu górnej lub dolnej granicy oszacowania (ponieważ uważasz, że znasz już użyteczną granicę w jednym kierunku). Jak często jesteś tak pewny sytuacji?

Być może przełączenie pytania na przedziały ufności tak naprawdę nie zawodzi, ale metodologicznie niespójne jest preferowanie testów jednostronnych, ale dwustronnych przedziałów ufności.

— John Coleman
źródło

4

Po zapoznaniu się z absolutnymi podstawami testowania hipotez i przejściu do części o testach jeden na dwóch ogoniastych ... Rozumiem podstawową matematykę i zwiększoną zdolność wykrywania testów jednoetapowych itp. Ale po prostu nie mogę owinąć głowy wokół jednej rzeczy ... O co chodzi? Naprawdę nie rozumiem, dlaczego powinieneś podzielić swoją alfa na dwie skrajności, kiedy twój próbka jest wynikiem tylko jednego lub drugiego, albo żadnego.

Problem polega na tym, że nie znasz średniej populacji. Nigdy nie spotkałem się ze scenariuszem z prawdziwego świata, który znam prawdziwą populację.

Weź przykładowy scenariusz z cytowanego powyżej tekstu. Jak możesz „nie przetestować” wyniku w przeciwnym kierunku? Masz na myśli swoją próbkę. Masz na myśli swoją populację. Prosta arytmetyka mówi ci, która jest wyższa. Co jest do przetestowania lub nie do przetestowania w przeciwnym kierunku? Co Cię powstrzymuje, gdy zaczynasz od zera z hipotezą przeciwną, jeśli wyraźnie widzisz, że średnia próbki jest daleko w innym kierunku?

Przeczytałem twój akapit kilka razy, ale nadal nie jestem pewien co do twoich argumentów. Czy chcesz to przeformułować? Nie można „przetestować”, jeśli dane nie trafiają do wybranych przez Ciebie krytycznych regionów.

Zakładam, że dotyczy to również zmiany polaryzacji testu jednostronnego. Ale w jaki sposób ten „udokumentowany” wynik jest mniej ważny, niż gdybyś po prostu wybrał właściwy test jednostronny?

Cytat jest poprawny, ponieważ hakowanie wartości p jest niewłaściwe. Ile wiemy o hakowaniu p „na wolności”? ma więcej szczegółów.

Najwyraźniej brakuje mi tutaj dużej części zdjęcia. To wszystko wydaje się zbyt arbitralne. Który jest, jak sądzę, w tym sensie, że to, co oznacza „statystycznie znaczące” - 95%, 99%, 99,9%… jest na początku arbitralne. Wsparcie?

To jest arbitralne. Dlatego badacze danych ogólnie podają wielkość samej wartości p (nie tylko znaczącej lub nieznacznej), a także wielkość efektów.

— SmallChess
źródło

Żeby było jasne, nie próbuję podważać samych podstaw wnioskowania statystycznego. Jak powiedziałem, dopiero poznałem podstawy i mam problem ze zrozumieniem, w jaki sposób można pominąć wszelkie potencjalne ustalenia, nie stosując właściwego testu.

— FromTheAshes

Powiedz, że twój kumpel Joe wymyśla nowy produkt, który, jak twierdzi, znacznie poprawia wzrost roślin. Zaintrygowany wymyślasz solidne badanie z grupą kontrolną i grupą terapeutyczną. Twój zerowy hip. jest to, że nie będzie zmian we wzroście, waszym alternatywnym hyp. polega na tym, że magiczny spray Joe znacznie zwiększa wzrost - więc test jednostronny. 2 tygodnie później dokonujesz końcowych obserwacji i analizujesz wyniki. Średni wzrost grupy leczonej okazuje się być ponad 5 standardowych błędów PONIŻEJ kontroli. W jaki sposób to bardzo znaczące odkrycie jest mniej oczywiste lub ważne z powodu wyboru testu?

— FromTheAshes

2

Jeśli poproszę cię o sprawdzenie głowy lub reszki w celu rzutu monetą, prawdopodobieństwo przewidzenia wyniku wynosi 50/50 (zakładając, że wyważona moneta i uczciwy flipper). Jeśli jednak najpierw odwrócę monetę i pozwolę wam spojrzeć na nią, a następnie dokonać prognozy, nie będzie to już 50/50. Jeśli przeprowadzasz jednostronny test z poziomem alfa 0,01, ale po obejrzeniu wyników odwróć kierunek testu, ponieważ p <.01 w innym kierunku, ryzyko błędu typu I nie jest długie .01 ale znacznie wyżej. Należy zauważyć, że zaobserwowana wartość p i współczynnik błędów typu I nie są tym samym.

— dbwilson

@FromTheAshes nie ma nic złego w próbie podważenia samych fundamentów. Testowanie hipotez statystycznych nie jest bezużyteczne, ale zawiera ogromne logiczne wady i absolutnie uzasadnione jest kwestionowanie ich!

— Flądrowiec

3

Cóż, cała różnica polega na pytaniu, na które chcesz odpowiedzieć. Jeśli pytanie brzmi: „Czy jedna grupa wartości jest większa od drugiej?” możesz użyć testu jednostronnego. Aby odpowiedzieć na pytanie: „Czy te grupy wartości są różne?” używasz testu dwustronnego. Weź pod uwagę, że zestaw danych może być statystycznie wyższy niż inny, ale nie statystycznie inny ... i to statystyki.

— Ramon L. Zegpi
źródło

1

„Jeśli pytanie brzmi:„ Czy jedna grupa wartości jest większa od drugiej? ” możesz zastosować test jednostronny. ” Mówiąc ściślej, jeśli pytanie brzmi „Czy * ta konkretna grupa jest większa od pozostałych”, należy zastosować test dwustronny.

— Kumulacja

Należy zauważyć, że sugeruje to, że jeśli zadajesz to pytanie, „a przy okazji, jeśli wygląda na to, że druga grupa jest większa, to mnie to nie obchodzi”. Jeśli zobaczysz przeciwieństwo tego, czego się spodziewałeś, a następnie przerzucisz kierunek testu hipotezy, to po prostu okłamałeś samego siebie i na początku powinieneś był wykonać test dwustronny.

— Dason

2

Ale w jaki sposób ten „udokumentowany” wynik jest mniej ważny, niż gdybyś po prostu wybrał właściwy test jednostronny?

Wartość alfa to prawdopodobieństwo odrzucenia wartości null, biorąc pod uwagę, że wartość null jest prawdziwa. Załóżmy, że zero oznacza, że średnia próbki jest zwykle rozkładana ze średnią zero. Jeśli P (średnia próbki> 1 | H0) = 0,05, to prawdopodobieństwo „Zbierz próbkę i odrzuć zero, jeśli średnia próbki jest większa niż 1”, ma prawdopodobieństwo, biorąc pod uwagę, że zero jest prawdziwe, 5% odrzucając zero. Reguła „Zbierz próbkę, a jeśli średnia próbki jest dodatnia, to odrzuć zero, jeśli średnia próbki jest większa niż 1, a jeśli średnia próbki jest ujemna, odrzuć zero, jeśli średnia próbki jest mniejsza niż 1” ma wartość prawdopodobieństwo, biorąc pod uwagę, że wartość null jest prawdziwa, 10% odrzucenia wartości null. Tak więc pierwsza reguła ma alfa 5%, a druga reguła alfa 10%. Jeśli zaczniesz od dwustronnego testu, a następnie zmień go na jednostronny test oparty na danych, a następnie postępujesz zgodnie z drugą regułą, więc niedokładne byłoby zgłaszanie alfa jako 5%. Wartość alfa zależy nie tylko od tego, jakie są dane, ale od zasad, których przestrzegasz podczas ich analizy. Jeśli pytasz, dlaczego warto użyć metryki, która ma tę właściwość, a nie czegoś, co zależy tylko od danych, jest to bardziej skomplikowane pytanie.

— Akumulacja
źródło

2

Odnośnie do drugiego punktu

Wybór testu jednostronnego po uruchomieniu testu dwustronnego, który nie odrzucił hipotezy zerowej, nie jest właściwy, bez względu na to, jak „zbliżony” do znaczącego był test dwustronny.

mamy, że jeśli wartość null jest prawdziwa, pierwszy, dwustronny test fałszywie odrzuca z prawdopodobieństwem , ale jednostronny może również odrzucać w drugim etapie. $\alpha$

Ogólne prawdopodobieństwo odrzucenia przekroczy zatem , a ty nie testujesz już na poziomie, który Twoim zdaniem testuje - częściej otrzymujesz fałszywe odrzucenia niż w przypadków, w których strategia jest stosowana do prawdziwe hipotezy zerowe. $\alpha$ $\alpha\cdot 100\%$

Ogólnie rzecz biorąc, szukamy które możemy wyrazić jako Dwa zdarzenia w unii są rozłączne, więc jesteśmy po Dla drugiego wyrażenia istnieje prawdopodobieństwo prawdopodobieństwa między górnymi kwantylami i (tj. punkty odrzucenia testy jednostronne i dwustronne), co jest wspólnym prawdopodobieństwem, że test dwustronny nie odrzuci, ale robi to jednostronnie. W związku z tym,

P (two-sided rejects or one-sided does, but two sided doesn't)

$P(\text{two-sided rejects or one-sided does, but two sided doesn't})$

P (two-sided rejects \cup (one-sided does \cap two sided doesn't))

$P(\text{two-sided rejects} \cup \text{(one-sided does} \cap \text{two sided doesn't)})$

P (two-sided rejects) + P (one-sided does \cap two sided doesn't)

$P(\text{two-sided rejects}) +P(\text{one-sided does} \cap \text{two sided doesn't})$

α / 2

$\alpha/2$

1 - α

$1-\alpha$

1 - α / 2

$1-\alpha/2$

P (one-sided does \cap two sided doesn't) = α / 2

$P(\text{one-sided does} \cap \text{two sided doesn't})=\alpha/2$ więc ogólne prawdopodobieństwo odrzucenia tej strategii wynosi Skutecznie po prostu sumujemy prawdopodobieństwa, że statystyka testu wyląduje po lewej stronie kwantyla , między górnymi kwantylami i lub po prawej stronie kwantyl.

α + \frac{α}{2} > α

$\alpha+\frac{\alpha}{2}>\alpha$

α / 2

$\alpha/2$

1 - α

$1-\alpha$

1 - α / 2

$1-\alpha/2$

1 - α / 2

$1-\alpha/2$

Oto mała ilustracja numeryczna:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

— Christoph Hanck
źródło

1

To tylko jeden arbitralny sposób spojrzenia na to: do czego służy test statystyczny? Prawdopodobnie najczęstszym powodem do przeprowadzenia testu jest to, że chcesz przekonać ludzi (tj. Redaktorów, recenzentów, czytelników, odbiorców), że twoje wyniki są „wystarczająco losowe”, aby były godne uwagi. I jakoś doszliśmy do wniosku, że jest arbitralną, ale uniwersalną prawdą. $p < \alpha = 0.05$

Na każdy inny rozsądny powód, by przeprowadzić testy, nigdy nie zadowolić stałej od , ale można zmieniać swoją od przypadku do przypadku, w zależności od tego, jak ważne są konsekwencje, które czerpią z testu. $\alpha$ $0.05$ $\alpha$

Wracając do przekonywania ludzi, że coś jest „wystarczająco dalekie od przypadkowego”, aby spełnić uniwersalne kryterium godności uwagi. Mamy niewrażliwe, ale powszechnie akceptowane kryterium, które naszym zdaniem uważa się za „nieprzypadkowe” przy przypadku testów dwustronnych $\alpha=0.05$ . Równoważnym kryterium byłoby przyjrzeć się danym, zdecydować, w jaki sposób przetestować i narysować linię przy . Drugi jest równoważny z pierwszym, ale nie jest to z czym historycznie się rozliczaliśmy. $\alpha=0.025$

Kiedy zaczniesz przeprowadzać jednostronne testy z , podejrzewasz, że zachowujesz się niewłaściwie, poszukujesz znaczenia. Nie rób tego, jeśli chcesz przekonać ludzi! $\alpha=0.05$

Następnie jest rzecz nazywana stopniem swobody badaczy . Możesz znaleźć znaczenie w każdym rodzaju danych, jeśli masz wystarczającą ilość danych i możesz je przetestować na dowolną liczbę sposobów. Właśnie dlatego powinieneś zdecydować o przeprowadzonym teście, zanim przejrzysz dane. Wszystko inne prowadzi do niemożliwych do odtworzenia wyników testu. Radzę przejść do youtube i spojrzeć na wykład Andrew Gelmansa „Zbrodnie na danych, aby uzyskać więcej na ten temat.

— Bernhard
źródło

1

Hmm, hipoteza zerowa nie jest taka, że wyniki są losowe. Byłoby to mylące dla klinicystów i naukowców, którzy bardzo postrzegają wyniki swojej pracy jako osiąganie określonego wyniku.

— AdamO

1

Twój punkt „Po rozpoczęciu jednostronnych testów z ...” jest ważny. Powód jest tak powszechny, że praktyczne doświadczenie RA Fishera w Rothamsted polegało na tym, że bycie ponad standardowymi odchyleniami od oczekiwanej wartości było generalnie warte dalszych badań, a następnie wybrał dwustronny test jako swoją ogólną zasadę , nie na odwrót. Zatem jednostronny ekwiwalent wyniósłby

α = 0.05

$α=0.05$

0.05

$0.05$

2

$2$

5 %

$5\%$

2.5 %

$2.5\%$

— Henry

1

Na pierwszy rzut oka żadne z tych stwierdzeń nie zapewnia, że test dwustronny jest „lepszy” od badania jednostronnego. Po prostu musi istnieć logiczne powiązanie testowanej hipotezy badawczej z testowanym wnioskiem statystycznym.

Na przykład:

... rozważ konsekwencje pominięcia efektu w innym kierunku. Wyobraź sobie, że opracowałeś nowy lek, który Twoim zdaniem stanowi ulepszenie w stosunku do istniejącego leku. Chcesz zmaksymalizować możliwość wykrycia poprawy, więc zdecyduj się na jednostronny test. W ten sposób nie testujesz możliwości, że nowy lek jest mniej skuteczny niż istniejący lek.

Po pierwsze, jest to badanie leków. Zatem bycie niepoprawnym w przeciwnym kierunku ma znaczenie społeczne wykraczające poza ramy statystyki. Tak jak wielu twierdziło, że zdrowie nie jest najlepszym sposobem na uogólnienie.

W powyższym cytacie wydaje się, że chodzi o testowanie leku, gdy inny już istnieje. Tak więc dla mnie oznacza to, że twój lek jest już skuteczny. Stwierdzenie dotyczy późniejszego porównania dwóch skutecznych leków. Porównując te rozkłady, jeśli zaniedbujesz jedną stronę populacji w celu poprawy jej wyników porównawczych? To nie tylko stronniczy wniosek, ale porównanie nie jest już uzasadnione: porównujesz jabłka z pomarańczami.

Podobnie bardzo dobrze mogą istnieć szacunki punktowe, które ze względu na wnioskowanie statystyczne nie wpłynęły na wnioski, ale mają bardzo duże znaczenie społeczne. Jest tak, ponieważ nasza próbka reprezentuje życie ludzi: coś, co nie może „powtórzyć się” i jest nieocenione.

Alternatywnie, stwierdzenie sugeruje, że badacz ma zachętę: „chcesz zmaksymalizować swoją zdolność do wykrycia poprawy ...” To pojęcie nie jest trywialne, ponieważ sprawa jest izolowana jako zły protokół.

Wybór testu jednostronnego po uruchomieniu testu dwustronnego, który nie odrzucił hipotezy zerowej, nie jest właściwy, bez względu na to, jak „zbliżony” do znaczącego był test dwustronny.

Ponownie oznacza to, że badacz „przełącza” swój test: z dwustronnego na jednostronny. To nigdy nie jest właściwe. Przed testowaniem konieczne jest posiadanie celu badawczego. Zawsze odchodząc od wygody dwustronnego podejścia - badaczom nie udaje się bardziej rygorystycznie zrozumieć tego zjawiska.

Oto artykuł na ten temat, który pokazuje, że testy dwustronne zostały nadużywane.

Obwinia nadużywanie dwustronnego testu brakiem:

wyraźne rozróżnienie i logiczne powiązanie między hipotezą badawczą a hipotezą statystyczną

Zajmuje stanowisko i stanowisko, że badacze:

może nie być świadomy różnicy między dwoma trybami ekspresji lub być świadomy logicznego przepływu, w którym hipotezę badawczą należy przełożyć na hipotezę statystyczną. Wygodne mieszanie hipotez badawczych i statystycznych może być przyczyną nadużywania testów dwustronnych, nawet w sytuacjach, w których stosowanie testów dwustronnych jest niewłaściwe.

potrzebne jest uchwycenie dokładnych statystyk przy interpretacji wyników badań statystycznych. Bycie niedokładnym pod nazwą bycia konserwatystą nie jest zalecane. W tym sensie autorzy uważają, że samo raportowanie wyników badań, takich jak: „Stwierdzono, że jest statystycznie istotne na poziomie istotności 0,05 (tj. P <0,05)”. Nie jest wystarczająco dobre.

Chociaż testy dwustronne są bardziej konserwatywne w teorii, to oddzielają związek między hipotezą badań kierunkowych a hipotezą statystyczną, co może prowadzić do podwójnie zawyżonych wartości p.

Autorzy wykazali również, że argument za znalezieniem znaczącego wyniku w przeciwnym kierunku ma znaczenie jedynie w kontekście odkrycia, a nie w kontekście
uzasadnienia . W przypadku testowania hipotezy badawczej i leżącej u jej podstaw teorii badacze nie powinni jednocześnie zajmować się kontekstem odkrycia i uzasadnienia.

https://www.sciencedirect.com/science/article/pii/S0148296312000550

— Aisync
źródło

1

Często przeprowadza się test istotności dla hipotezy zerowej w stosunku do hipotezy alternatywnej . To właśnie wtedy robi różnicę jedno- i dwustronny.

Dla wartości p to (dwustronne lub jednostronne) nie ma znaczenia! Chodzi o to, że wybierasz kryterium, które występuje tylko ułamek czasu, w którym hipoteza zerowa jest prawdziwa. To albo dwa małe kawałki obu ogonów, albo jeden duży kawałek jednego ogona, albo coś innego. $\alpha$

Współczynnik błędów typu I nie różni się w przypadku testów jedno- lub dwustronnych.
Z drugiej strony, dla mocy ma znaczenie .

Jeśli twoja alternatywna hipoteza jest asymetryczna, to chciałbyś skoncentrować kryterium, aby odrzucić hipotezę zerową tylko na tym ogonie / końcu; tak, że gdy hipoteza alternatywna jest prawdziwa, istnieje mniejsze prawdopodobieństwo, że nie odrzuci („zaakceptuje”) hipotezy zerowej.

Jeśli twoja alternatywna hipoteza jest symetryczna (nie zależy ci na umieszczeniu większej lub mniejszej mocy po jednej określonej stronie), a ugięcie / efekt po obu stronach jest równie spodziewane (lub po prostu nieznane / niedoinformowane), wtedy bardziej skuteczne jest użycie test dwustronny (nie tracisz 50% mocy dla ogona, którego nie testujesz i gdzie popełnisz wiele błędów typu II).

Współczynnik błędów typu II jest różny dla testów jedno- i dwustronnych, a także w zależności od alternatywnej hipotezy.

To staje się bardziej podobne do koncepcji bayesowskiej, kiedy zaczynamy uwzględniać uprzedzenia, czy spodziewamy się, że efekt spadnie z jednej lub z obu stron, i kiedy chcemy skorzystać z testu (aby sprawdzić, czy możemy sfałszować hipoteza zerowa), aby „potwierdzić” lub uczynić bardziej prawdopodobnym efekt podobny do efektu.

— Sextus Empiricus
źródło

0

A więc jeszcze jedna próba odpowiedzi:

Sądzę, że wybór jedno- lub dwustronnego zależy całkowicie od hipotezy Alternatywnej .

Rozważ następujący przykład średniej testowej w teście:

$H_0: \mu=0$

$H_a: \mu \neq 0$

Teraz, jeśli zaobserwujesz bardzo ujemną średnią z próby lub bardzo pozytywną średnią z próby, twoja hipoteza jest mało prawdopodobna.

Z drugiej strony będziesz skłonny zaakceptować swoją hipotezę, jeśli średnia próbki będzie bliska niezależnie od tego, czy jest ona ujemna, czy dodatnia . Teraz musisz wybrać przedział, w którym, jeśli średnia próbki spadłaby, nie odrzuciłbyś hipotezy zerowej. Oczywiście wybrałbyś przedział, który ma zarówno ujemne, jak i dodatnie strony wokół . Więc wybierasz test z dwóch stron. $0$ $0$

Ale co jeśli nie chcesz testować , a raczej . Teraz intuicyjnie chcemy tutaj zrobić, że jeśli wartość średniej próbki jest bardzo ujemna, to możemy zdecydowanie odrzucić naszą wartość zerową. Chcielibyśmy więc odrzucić null tylko dla daleko ujemnych wartości średniej próbki. $\mu=0$ $\mu\geq 0$

Ale poczekaj! Jeśli taka jest moja hipoteza zerowa, jak ustawiłbym rozkład zerowy. Rozkład zerowy średniej próbki jest znany dla pewnej zakładanej wartości parametru populacji (tutaj ). Ale pod obecną wartością zerową może przyjąć wiele wartości. $0$

Powiedzmy, że możemy robić nieskończone hipotezy zerowe. Każdy za przyjęcie dodatniej wartości . Ale pomyśl o tym: w naszej pierwszej hipotezie , jeśli odrzucimy tylko zero przy obserwowaniu bardzo daleko ujemnej średniej próbki, wówczas każda kolejna hipoteza z również ją odrzuci. Ponieważ dla nich średnia próbki jest jeszcze większa od parametru populacji. W zasadzie wszystko, co musimy zrobić, to po prostu zrobić jedną hipotezę, ale jednostronną . $\mu$ $H_0: \mu=0$ $H_0: \mu>0$

Twoje rozwiązanie staje się:

$H_0: \mu=0$

$H_a: \mu <0$

Najlepszym przykładem jest test Dickeya-Fullera na stacjonarność.

Mam nadzieję że to pomoże. (Chciał dołączyć schematy, ale odpowiadał z telefonu komórkowego).

— Dayne
źródło