Przy dużych próbach testy istotności rzucają się na małe, nieważne odstępstwa od hipotezy zerowej.
Logika jest tutaj taka, że jeśli ktoś zgłasza wysoce znaczące , to na podstawie samej tej liczby nie możemy stwierdzić, czy efekt jest duży i ważny, czy nieistotny niewielki (jak to może się zdarzyć z dużym ). Uważam ten argument za dziwny i w ogóle nie mogę się z nim połączyć, ponieważ nigdy nie widziałem badań, które zgłosiłyby wartość bez zgłaszania wielkości efektu. Badania, które przeczytałem, powiedzą np. (I zwykle pokazują na rycinie), że grupa A miała taką i taką średnią, grupa B miała taką i taką średnią i były one znacząco różne z taką i taką wartością . Mogę oczywiście sam ocenić, czy różnica między A i B jest duża czy mała.n p pp = 0,0001npp
(W komentarzach @RobinEkman wskazał mi kilka bardzo cytowanych badań Ziliaka i McCloskeya ( 1996 , 2004 ), którzy zauważyli, że większość artykułów ekonomicznych trąci „statystycznym znaczeniem” niektórych efektów, nie zwracając uwagi na wielkość efektu i jego „praktyczne znaczenie” (które, jak twierdzą Z&MS, często może być niewielkie). Jest to wyraźnie zła praktyka. Jednak, jak wyjaśniono poniżej @ MatteoS, wielkości efektów (szacunki regresji) są zawsze zgłaszane, więc mój argument jest podtrzymany.)
Prawie żadne hipotezy zerowe nie są prawdziwe w prawdziwym świecie, więc wykonanie na nich testu istotności jest absurdalne i dziwaczne.
Ta troska jest również często wyrażana, ale tutaj nie mogę się z nią naprawdę połączyć. Ważne jest, aby zdawać sobie sprawę, że naukowcy nie zwiększają swojegon = 20 n = 50 n = 5000n ad infinitum . W znanej mi dziedzinie neuronauki ludzie przeprowadzają eksperymenty z a może , powiedzmy, szczurami. Jeśli nie widać żadnego efektu, wówczas wniosek jest taki, że efekt nie jest wystarczająco duży, aby był interesujący. Nikt nie wiem, pójdzie na hodowli, szkolenia, nagrywania i poświęcania szczury, aby pokazać, że nie jest pewne istotne statystycznie, ale mały efekt. Oraz mając na uwadze, że może być prawdą, że prawie żadne realne efekty są dokładnie zero, to jestn = 20n = 50n = 5000 z pewnością prawda, że wiele wielu rzeczywistych efektów jest wystarczająco małych, aby można je było wykryć przy rozsądnych rozmiarach próby, których rozsądni badacze faktycznie używają, dokonując właściwego osądu.
(Istnieje uzasadniona obawa, że rozmiary próbek często nie są wystarczająco duże i że wiele badań jest słabych. Być może więc badacze z wielu dziedzin powinni raczej dążyć do, powiedzmy, zamiast Mimo to, bez względu na wielkość próby ogranicza limit wielkości efektu, który badanie może wykryć).n = 20n = 100n = 20
Ponadto nie sądzę, że zgadzam się z tym, że prawie żadne hipotezy zerowe nie są prawdziwe, przynajmniej nie w eksperymentalnych badaniach randomizowanych (w przeciwieństwie do obserwacji). Dwa powody:
Bardzo często występuje kierunkowość testowanej prognozy; badacz stara się wykazać, że jakiś efekt jest dodatni . Zgodnie z konwencją zwykle wykonuje się to z dwustronnym testem przyjmującym punkt zerowy ale w rzeczywistości jest to raczej jednostronny test próbujący odrzucić . (Odpowiedź @ CliffAB, +1, zawiera pokrewny punkt.) I to z pewnością może być prawda.H 0 : δ = 0 H 0 : δ < 0δ> 0H.0: δ= 0H.0: δ< 0
Nawet mówiąc o punkcie „zero” zero H.0: δ= 0 , nie rozumiem, dlaczego nigdy nie są prawdziwe. Niektóre rzeczy nie są po prostu przyczynowo związane z innymi rzeczami. Spójrz na badania psychologiczne, które nie powielały się w ostatnich latach: ludzie czują przyszłość; kobiety ubrane na czerwono podczas owulacji; wypełnianie słowami związanymi ze starością mającymi wpływ na prędkość chodzenia; itp. Może się zdarzyć, że w ogóle nie ma tu żadnych związków przyczynowych, więc prawdziwe efekty są dokładnie zerowe.
Chciałbym podać długi cytat na temat praktycznej przydatności wartości mojego ulubionego blogera Scotta Alexandra; nie jest statystykiem (jest psychiatrą), ale ma duże doświadczenie w czytaniu literatury psychologicznej / medycznej i analizowaniu zawartych w niej statystyk. Cytat pochodzi z jego postu na blogu na temat fałszywej analizy czekolady, którą gorąco polecam. Podkreśl moje.p
[...] Załóżmy jednak, że nie wolno nam dokonywać wartości . Wszystko, co robię, to mówię „Tak, było piętnaście badań, w których stwierdzono, że czekolada pomogła w oporności na insulinę”, a ty śmiejesz się na mojej twarzy. Pomaga w tym wielkość efektu. Przypuśćmy jednak, że mówię: „Przeprowadzono badanie z piętnastoma osobami, w których stwierdzono, że czekolada pomogła w insulinooporności. Wielkość efektu wynosiła ”. Nie mam żadnej intuicji, czy jest to zgodne z przypadkowym hałasem. Czy ty? Okej, więc mówią, że powinniśmy zgłaszać przedziały ufności. Rozmiar efektu wynosił , z przedziałem ufności wynoszącym0,6 0,6 95 % [ 0,2 , 1,0 ] p 95 % p 0,05p0,60,695 %[ 0,2 , 1,0 ] . W porządku. Sprawdzam więc dolną granicę przedziału ufności, widzę, że różni się od zera. Ale teraz nie przekraczamp-wartość. Po prostu używam wartości p, wykonując niejasne obliczenia, ja sama - „ przedział ufności nie zawiera zera” jest taki sam jak „95 %p wartość jest mniejsza niż ”.0,05
(Wyobraź sobie, że chociaż znam 99 %95 % przedział ufności nie zawiera zera, zaczynam się zastanawiać, czy przedział ufności robi. Gdyby tylko istniała jakaś statystyka, która dałaby mi te informacje!)99 %
Ale czy pozbycie się wartości nie zapobiegnie „ hakowaniu ”? Może, ale po prostu ustąpi miejsca „hakowaniu”. Nie sądzisz, że mógłbyś przetestować dwadzieścia różnych parametrów metabolicznych i zgłosić tylko ten o najwyższym rozmiarze efektu? Jedyną różnicą jest to, że p-hacking jest całkowicie przezroczysty - jeśli nie dwadzieścia testy i zgłosić op p 0,05 d = 0,6ppp0,05 , wiem, że jesteś idiotą - ale hackowanie d byłoby niezrozumiałe. Jeśli zrobisz dwadzieścia testów i poinformujesz, że jeden z nich otrzymał , czy to robi wrażenie? [...]re= 0,6
Ale czy przejście od wartości do wielkości efektów nie powstrzymałoby ludzi przed robieniem wielkich rzeczy na temat drobnych efektów, które mimo to są statystycznie istotne? Tak, ale czasami chcemy zrobić coś wielkiego o drobnych efektach, które mimo to są statystycznie znaczące! Załóżmy, że Coca-Cola testuje nowy dodatek do produktu i odkrywa w dużych badaniach epidemiologicznych, że powoduje jedną dodatkową śmierć na sto tysięcy ludzi rocznie. To wielkość efektu wynosząca około zero, ale nadal może być istotna statystycznie. A ponieważ około miliarda ludzi na całym świecie pije colę każdego roku, to dziesięć tysięcy zgonów. Gdyby Coke powiedziała „Nie, rozmiar efektu jest zbyt mały, nie warto o tym myśleć”, zabiliby ludzi o wartości prawie dwóch milionów Hitlerów.p