Czytałem artykuł Geoffa Cumminga z 2008 r. Replikacje i przedziały : wartości przewidują przyszłość tylko niejasno, ale przedziały ufności radzą sobie znacznie lepiej [~ 200 cytowań w Google Scholar] - i jestem zdezorientowany jednym z jej głównych twierdzeń. Jest to jeden z serii artykułów, w których Cumming sprzeciwia się wartościom i opowiada się za przedziałami ufności; moje pytanie nie dotyczy jednak tej debaty i dotyczy tylko jednego konkretnego twierdzenia na temat wartości .
Pozwól, że zacytuję streszczenie:
W tym artykule pokazano, że jeśli początkowy eksperyment daje dwustronne , istnieje szansy, że jednostronna wartość z repliki spadnie w przedziale , szans, że , i pełne szans, że . Co ciekawe, przedział - zwany przedziałem - jest tak szeroki, jakkolwiek duży jest rozmiar próbki.
Cumming twierdzi, że „ przedziału”, w rzeczywistości cały rozkład p -values że jeden uzyskać podczas replikacji pierwszego eksperymentu (o tej samej wielkości stałej próbki) zależą tylko od pierwotnego P -wartość s o b t i nie zależą od rzeczywistej wielkości efektu, mocy, wielkości próbki ani niczego innego:
[...] rozkład prawdopodobieństwa można uzyskać bez znajomości lub przyjęcia wartości assum (lub mocy). [...] Nie ponosi żadnej wcześniejszej wiedzy o hemibursztynianu , i wykorzystywać informacje M d i f F [zaobserwowano różnic między grupami] podaje się δ jako podstawa do obliczeń dla danego s o b t o rozkład przedziałów p i p .
Jestem zdezorientowany tym, ponieważ wydaje mi się, że rozkład -values silnie zależy od mocy, podczas gdy oryginalna p o b t na własną rękę nie daje żadnych informacji o nim. Możliwe, że rzeczywisty rozmiar efektu wynosi δ = 0, a następnie rozkład jest jednolity; a może prawdziwy rozmiar efektu jest ogromny i wtedy powinniśmy oczekiwać głównie bardzo małych wartości p . Oczywiście można zacząć od założenia pewnych wcześniejszych możliwych rozmiarów efektów i integracji nad nimi, ale Cumming wydaje się twierdzić, że nie robi tego.
Pytanie: Co dokładnie się tutaj dzieje?
Zauważ, że ten temat jest związany z tym pytaniem: Jaka część powtórzeń eksperymentów będzie miała wielkość efektu w 95% przedziale ufności pierwszego eksperymentu? z doskonałą odpowiedzią @whuber. Cumming ma artykuł na ten temat do: Cumming & Maillardet, 2006, Interwały zaufania i replikacja: Gdzie nastanie następny średni upadek? - ale ta jest jasna i bezproblemowa.
Zauważam również, że twierdzenie Cumminga zostało kilkakrotnie powtórzone w dokumencie Nature Methods 2015. Zmienna wartość generuje nieodpowiedzialne wyniki, z którymi niektórzy z was mogli się spotkać (ma już około 100 cytowań w Google Scholar):
[...] będą istnieć znaczne różnice w wartości powtarzanych eksperymentów. W rzeczywistości eksperymenty rzadko się powtarzają; nie wiemy, jak różne może być następne P. Ale jest prawdopodobne, że może być zupełnie inaczej. Na przykład, niezależnie od mocy statystycznej eksperymentu, jeśli pojedyncza replikacja zwróci wartość P 0,05 , istnieje 80 % szans, że powtórzenie eksperymentu zwróci wartość P od 0 do 0,44 (i zmianę o 20 % [sic ], że P byłby jeszcze większy).
(Uwaga, nawiasem mówiąc, w jaki sposób, niezależnie od tego, czy sprawozdanie Cumming jest poprawne, czy nie, Nature Methods papier cytuje go błędnie: według Cumming, to tylko prawdopodobieństwo powyżej 0,44 . I tak, że papier nie powiedzieć „20% chan g e ”. Pfff.)