Cumming (2008) twierdzi, że rozkład wartości p uzyskanych w replikacjach zależy tylko od oryginalnej wartości p. Jak to może być prawda?

52

Czytałem artykuł Geoffa Cumminga z 2008 r. Replikacje i przedziały $p$ : wartości $p$ przewidują przyszłość tylko niejasno, ale przedziały ufności radzą sobie znacznie lepiej [~ 200 cytowań w Google Scholar] - i jestem zdezorientowany jednym z jej głównych twierdzeń. Jest to jeden z serii artykułów, w których Cumming sprzeciwia się wartościom $p$ i opowiada się za przedziałami ufności; moje pytanie nie dotyczy jednak tej debaty i dotyczy tylko jednego konkretnego twierdzenia na temat wartości $p$ .

Pozwól, że zacytuję streszczenie:

W tym artykule pokazano, że jeśli początkowy eksperyment daje dwustronne $p= .05$ , istnieje $80\%$ szansy, że jednostronna wartość $p$ z repliki spadnie w przedziale $(.00008, .44)$ , $10\%$ szans, że $p < .00008$ , i pełne $10\%$ szans, że $p > .44$ . Co ciekawe, przedział - zwany przedziałem $p$ - jest tak szeroki, jakkolwiek duży jest rozmiar próbki.

Cumming twierdzi, że „ przedziału”, w rzeczywistości cały rozkład -values że jeden uzyskać podczas replikacji pierwszego eksperymentu (o tej samej wielkości stałej próbki) zależą tylko od pierwotnego -wartość i nie zależą od rzeczywistej wielkości efektu, mocy, wielkości próbki ani niczego innego: $p$ $p$ $p$ $p_\mathrm{obt}$

[...] rozkład prawdopodobieństwa można uzyskać bez znajomości lub przyjęcia wartości (lub mocy). [...] Nie ponosi żadnej wcześniejszej wiedzy o , i wykorzystywać informacje [zaobserwowano różnic między grupami] podaje się jako podstawa do obliczeń dla danego o rozkład przedziałów i . $p$ $\delta$ $\delta$ $M_\mathrm{diff}$ $\delta$ $p_\mathrm{obt}$ $p$ $p$

$\quad\quad\quad$

Jestem zdezorientowany tym, ponieważ wydaje mi się, że rozkład -values silnie zależy od mocy, podczas gdy oryginalna na własną rękę nie daje żadnych informacji o nim. Możliwe, że rzeczywisty rozmiar efektu wynosi a następnie rozkład jest jednolity; a może prawdziwy rozmiar efektu jest ogromny i wtedy powinniśmy oczekiwać głównie bardzo małych wartości . Oczywiście można zacząć od założenia pewnych wcześniejszych możliwych rozmiarów efektów i integracji nad nimi, ale Cumming wydaje się twierdzić, że nie robi tego. $p$ $p_\mathrm{obt}$ $\delta=0$ $p$

Pytanie: Co dokładnie się tutaj dzieje?

Zauważ, że ten temat jest związany z tym pytaniem: Jaka część powtórzeń eksperymentów będzie miała wielkość efektu w 95% przedziale ufności pierwszego eksperymentu? z doskonałą odpowiedzią @whuber. Cumming ma artykuł na ten temat do: Cumming & Maillardet, 2006, Interwały zaufania i replikacja: Gdzie nastanie następny średni upadek? - ale ta jest jasna i bezproblemowa.

Zauważam również, że twierdzenie Cumminga zostało kilkakrotnie powtórzone w dokumencie Nature Methods 2015. Zmienna wartość generuje nieodpowiedzialne wyniki, z $P$ którymi niektórzy z was mogli się spotkać (ma już około 100 cytowań w Google Scholar):

[...] będą istnieć znaczne różnice w wartości powtarzanych eksperymentów. W rzeczywistości eksperymenty rzadko się powtarzają; nie wiemy, jak różne może być następne Ale jest prawdopodobne, że może być zupełnie inaczej. Na przykład, niezależnie od mocy statystycznej eksperymentu, jeśli pojedyncza replikacja zwróci wartość , istnieje szans, że powtórzenie eksperymentu zwróci wartość od do (i zmianę o [sic ], że byłby jeszcze większy). $P$ $P$ $P$ $0.05$ $80\%$ $P$ $0$ $0.44$ $20\%$ $P$

(Uwaga, nawiasem mówiąc, w jaki sposób, niezależnie od tego, czy sprawozdanie Cumming jest poprawne, czy nie, Nature Methods papier cytuje go błędnie: według Cumming, to tylko prawdopodobieństwo powyżej . I tak, że papier nie powiedzieć „20% chan g e ”. Pfff.) $10\%$ $0.44$

— ameba mówi Przywróć Monikę
źródło

8

Czy takie twierdzenia nie musiałyby być uzależnione od założonego stanu przyrody - i czy nie byłaby to domyślna hipoteza zerowa? W przypadku prostych hipotez zerowych i statystyki o rozkładzie ciągłym wartość p ma rozkład równomierny. Wszystko płynie z tego faktu.

— whuber

4

@ whuber Cóż, dystrybucje pokazane na rycinie 5, które tu odtworzyłem, wyraźnie nie są jednolite. Zgadzam się jednak, że każdy taki podział, jak się wydaje, musi być uzależniony od stanu przyrody, ale Cumming wydaje się twierdzić coś przeciwnego. Stąd moje pytanie: co tak naprawdę dzieje się w tym artykule? Czy źle zrozumiałem roszczenie? Czy papier jest po prostu zły? Czy możemy wymyślić jakieś ukryte założenia? Itd.

— ameba mówi Przywróć Monikę

Uwaga dla mnie: ten arxiv.org/abs/1609.01664 jest najwyraźniej spokrewniony, ale szybkie spojrzenie nie rozwiązało mojej zagadki.

— ameba mówi Przywróć Monikę

1

Chciałbym nie dawać finałów w tym tygodniu, bo spędziłbym na tym trochę czasu. Nie ma sensu, aby kolejna wartość p zależała od mocy, pod warunkiem, że obie wielkości próbek są takie same. Obserwowana wartość p powinna zależeć tylko od prawdziwej wartości parametru i wyboru wartości null. Przydatność oszacowania zależy od mocy, ale nie jest to pytanie tutaj.

— Dave Harris,

3

z = \frac{Δ \bar{x}}{σ} \sqrt{\frac{N}{2}} \sim N_{⟨ z ⟩, 1}

$z=\frac{\Delta\bar{x}}{\sigma}\sqrt{\frac{N}{2}}\sim\mathrm{N}_{\langle{z}\rangle,1}$

⟨ z ⟩ = \frac{Δ μ}{σ} \sqrt{\frac{N}{2}} = 0

$\langle{z}\rangle=\frac{\Delta\mu}{\sigma}\sqrt{\frac{N}{2}}=0$

21

$z_\mu$ $\theta$

Wierzę, że może istnieć podejście w stylu bayesowskim, aby uzyskać równania podane w dodatku B.

$z\sim\mathrm{N}_{\theta,1}$ $\theta$ $\theta\mid{}H_0=0$

$\hat{z}\mid\theta\sim\mathrm{N}_{\theta,1}$ $\theta\sim1$ $\theta\mid\hat{z}\sim\mathrm{N}_{\hat{z},1}$ $\theta\mid\hat{z}$ $z\mid\hat{z}\sim\mathrm{N}_{\hat{z},2}$ . (Podwojona wariancja wynika z splotu Gaussów.)

$\frac{1}{\sqrt{2}}$

Dyskusja

Jak ten wynik można pogodzić ze standardową strukturą testowania hipotez zerowych? Jedna z możliwych interpretacji jest następująca.

$\theta=0$ $\theta\sim\mathrm{N}_{0,\lambda^2}$ $\lambda^2$

θ \sim N_{0, λ^{2}} ⟹ θ ∣ \hat{z} \sim N_{δ^{2} \hat{z}, δ^{2}}, z ∣ \hat{z} \sim N_{δ^{2} \hat{z}, 1 + δ^{2}}, δ^{2} \equiv \frac{1}{1 + λ^{- 2}} \in [0, 1]

$\theta\sim\mathrm{N}_{0,\lambda^2} \implies \theta\mid\hat{z}\sim\mathrm{N}_{\delta^2\hat{z},\delta^2} \,,\, z\mid\hat{z}\sim\mathrm{N}_{\delta^2\hat{z},1+\delta^2} \,,\, \delta^2\equiv\tfrac{1}{1+\lambda^{-2}}\in[0,1]$

λ \to \infty

$\lambda\to\infty$

λ \to 0

$\lambda\to{0}$

θ ∣ \hat{z} \sim N_{0, 0}

$\theta\mid\hat{z}\sim\mathrm{N}_{0,0}$

z ∣ \hat{z} \sim N_{0, 1}

$z\mid\hat{z}\sim\mathrm{N}_{0,1}$

p ∣ \hat{z} \sim U_{0, 1}

${p}\mid{\hat{z}}\sim\mathrm{U}_{0,1}$ .

(W przypadku powtarzających się badań powyższe sugeruje interesujące pytanie o konsekwencje aktualizacji Bayesa w porównaniu z „tradycyjnymi” metodami metaanalizy. Jestem jednak całkowicie nieświadomy na temat metaanalizy!)

dodatek

Zgodnie z żądaniem w komentarzach, tutaj jest fabuła do porównania. Jest to stosunkowo proste zastosowanie formuł w artykule. Wypiszę je jednak, aby nie było dwuznaczności.

$p$ $z$ $F[u]\equiv\Pr\big[\,p\leq{u}\mid{\hat{z}}\,\big]$

F [p] = 1 - Φ [\frac{1}{\sqrt{2}} (z [p] - \hat{z})], z [p] = Φ^{- 1} [1 - p]

$F[p]=1-\Phi\left[\tfrac{1}{\sqrt{2}}\left(z[p]-\hat{z}\right)\right] \,,\, z[p]=\Phi^{-1}[1-p]$

Φ []

$\Phi[\,\,]$

f [p] \equiv F^{'} [p] = \frac{ϕ [(z - \hat{z}) / \sqrt{2}]}{\sqrt{2} ϕ [z]}

$f\big[p\big]\equiv{F^\prime}\big[p\big]=\frac{\phi\Big[(z-\hat{z})/\sqrt{2}\,\Big]}{\sqrt{2}\,\phi\big[z\big]}$

ϕ []

$\phi[\,\,]$

z = z [p]

$z=z[p]$

\hat{p}

$\hat{p}$ zaobserwowana dwustronna wartość p odpowiadająca , wtedy mamy

\hat{z}

$\hat{z}$

\hat{z} = Φ^{- 1} [1 - \frac{\hat{p}}{2}]

$\hat{z}=\Phi^{-1}\Big[1-\tfrac{\hat{p}}{2}\Big]$

Wykorzystanie tych równań daje poniższy rysunek, który powinien być porównywalny z rysunkiem 5 w pracy cytowanym w pytaniu.

(Zostało to wygenerowane przez następujący kod Matlab; uruchom tutaj .)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

— GeoMatt22
źródło

1

Mam nadzieję, że ujawniając podstawowe założenie (np. Jednolity przed ukrytym parametrem), dyskusja może teraz skupić się na pytaniu naukowym / statystycznym, które moim zdaniem było twoim celem! (Zamiast pytania matematycznego / prawdopodobieństwa, na które odpowiedziałem powyżej.)

— GeoMatt22,

Znalazłem kilka starych i nie tak starych dyskusji na ten temat: Goodman 1992 , komentarz do Goodmana Senna 2002 oraz niedawny Lazzeroni i in . 2014 . Ostatni wydaje się raczej nieprzydatny (ale wymieniam go dla kompletności), ale dwa pierwsze, szczególnie komentarz Senna, wydają się bardzo trafne.

— ameba mówi Przywróć Monikę

ameba dziękuję za wykopanie tych referencji, wyglądają interesująco! Dla kompletności dodałem sekcję „dyskusja”, próbując połączyć wynik Cumminga ze standardową strukturą.

— GeoMatt22,

Aktualizacja: Przeczytałem papiery Goodmana i Senna, do których odsyłam powyżej, i teraz opublikowałem własną odpowiedź, aby podsumować moją obecną intuicję. (Nawiasem mówiąc, z radością przyjęłam twoją odpowiedź i przyznałem nagrodę. Jeszcze raz dziękuję.)

— Amoeba mówi Przywróć Monikę

27

Dzięki za wszystkie interesujące dyskusje! Pisząc ten artykuł z 2008 r. Trochę czasu zajęło mi przekonanie siebie, że rozkład replikacji p ( wartość p podana przez dokładną replikację badania, co oznacza badanie, które jest dokładnie takie samo, ale z nową próbką) jest zależne tylko na p podanym przez oryginalne badanie. (W pracy zakładam normalnie rozłożoną populację i losowe pobieranie próbek oraz że nasze badania mają na celu oszacowanie średniej populacji). Dlatego przedział p (80% przedział predykcji dla replikacji p ) jest taki sam, niezależnie od N , moc lub rzeczywisty rozmiar efektu oryginalnego badania.

Jasne, to z początku niewiarygodne. Ale zwróć uwagę, że moje oryginalne stwierdzenie opiera się na znajomości pz pierwotnego badania. Pomyśl o tym w ten sposób. Przypuśćmy, że powiesz mi, że twoje oryginalne badanie wykazało p = 0,05. Nie powiesz mi nic więcej o badaniu. Wiem, że 95% CI w twojej średniej próby rozciąga się dokładnie do zera (zakładając, że p obliczono dla hipotezy zerowej zero). Tak więc twoja średnia próbki to MoE (długość jednego ramienia tego 95% CI), ponieważ jest to odległość od zera. Rozkład próbkowania średnich z badań takich jak twoje ma odchylenie standardowe MoE / 1.96. To jest standardowy błąd.

Rozważ średnią podaną przez dokładną replikację. Rozkład tej średniej replikacji ma średnią MoE, tzn. Rozkład jest wyśrodkowany na pierwotnej średniej próbki. Rozważ różnicę między średnią z próby a średnią z replikacji. Ma wariancję równą sumie wariancji średnich badań, takich jak oryginalne badanie, i powtórzeń. To dwukrotność wariancji badań w porównaniu z oryginalnymi badaniami, tj. 2 x SE ^ 2. Czyli 2 x (MoE / 1,96) ^ 2. Zatem SD tej różnicy wynosi SQRT (2) x MoE / 1.96.

Znamy zatem rozkład średniej replikacji: jej średnią to MoE, a SD to SQRT (2) x MoE / 1,96. Jasne, skala pozioma jest dowolna, ale musimy znać ten rozkład w odniesieniu do CI z twojego pierwotnego badania. Po uruchomieniu replikacji większość średnich (około 83%) spadnie do pierwotnego 95% CI, a około 8% spadnie poniżej (tj. Poniżej zera, jeśli pierwotna średnia wynosiła> 0) i 8% więcej niż to CI. Jeśli wiemy, gdzie spada średnia replikacji w stosunku do pierwotnego CI, możemy obliczyć jej wartość p . Znamy rozmieszczenie takich środków replikacji (w stosunku do Twojego CI), abyśmy mogli ustalić rozkład replikacji pwartość. Jedyne założenie, które przyjmujemy w odniesieniu do replikacji, to że jest ono dokładne, tj. Pochodzi z tej samej populacji, z tym samym rozmiarem efektu, co twoje oryginalne badanie, i że N (i plan eksperymentalny) były takie same jak w twoim badaniu .

Wszystko powyższe to tylko powtórzenie argumentu w artykule, bez zdjęć.

Mimo to nieformalnie pomocne może być zastanowienie się, co oznacza p = 0,05 w pierwotnym badaniu. Może to oznaczać, że masz ogromne badanie z niewielkim rozmiarem efektu lub małe badanie z ogromnym rozmiarem efektu. Tak czy inaczej, jeśli powtórzysz to badanie (ta sama N , ta sama populacja), bez wątpienia uzyskasz nieco inną średnią próby. Okazuje się, że pod względem wartości p „nieco inny” jest taki sam, niezależnie od tego, czy miałeś badanie ogromne czy małe. Powiedz mi tylko swoją wartość p, a powiem ci interwał p .

Geoff

— Geoff Cumming
źródło

8

Bardzo dziękuję za rejestrację na tej stronie, aby odpowiedzieć na moje pytanie! Bardzo to doceniam. Nadal nie jestem przekonany, ale zastanowię się nad odpowiedzią. Moje obecne odczucie polega na tym, że robisz słuszny punkt, ale nie zgadzam się co do tego, jak to sformułujesz. Jeden prosty zarzut: p = 0,05 jest zgodny z H0, który jest prawdziwy. Jeśli H0 jest prawdziwe, p będzie w zakresie 0,04-0,05 przez 1% czasu. W takim przypadku rozkład wartości p replikacji będzie równy od 0 do 1. Przewiduje się jednak inny rozkład dla początkowego p = 0,05 we wszystkich okolicznościach . Jak o tym myśleć?

— ameba mówi Przywróć Monikę

7

Domniemane założenie w tym argumencie wydaje się nie do przyjęcia: chodzi o to, że „dokładna replikacja” ma średnią równą MoE. Jeśli przez „dokładną replikację” rozumiemy powtórzenie eksperymentu z tym samym stanem natury, wówczas rozkład statystyki testowej jest nieznany: zależy to od stanu natury. Oprócz przyjęcia bayesowskiego punktu widzenia - co oznacza, że musisz wyraźnie określić swoje wcześniejsze - jedynym sposobem na osiągnięcie postępu jest obliczenie prawdopodobieństw przed wykonaniem oryginału lub repliki, bez uwarunkowania replikacji.

— whuber

2

@ user43849 Z całym szacunkiem twierdzę, że taka osoba nie rozumie, czym jest wartość p. Wartość p mówi niewiele lub nic o przyszłych eksperymentach. Istnieje częste pojęcie częstości przewidywania, które stosuje się bezpośrednio tutaj: kwestia replikacji dotyczy po prostu przedziału przewidywania dla wartości p pojedynczego przyszłego eksperymentu. Odpowiedź jest dobrze ugruntowana w klasycznej teorii statystycznej, nie wymaga żadnych innowacyjnych koncepcji i jest (zdecydowanie) nie bayesowska w duchu.

— whuber

2

@ whuber zagłębiając się w gazetę, uważam, że może istnieć ukryte założenie bayesowskie leżące u podstaw ćwiczenia (patrz moja odpowiedź).

— GeoMatt22

1

@GeoMatt Tak, to wygląda na jedyny sposób uzasadnienia obliczeń.

— whuber

10

Sprawa została wyjaśniona przez @ GeoMatt22 i cieszę się, że @GeoffCumming przybywa tutaj, aby wziąć udział w dyskusji. Publikuję tę odpowiedź jako dalszy komentarz.

Jak się okazuje, ta dyskusja sięga przynajmniej Goodmana (1992) Komentarz na temat replikacji, wartości P i dowodów oraz późniejszej odpowiedzi List Senna (2002) do redakcji . Mogę gorąco polecić przeczytanie tych dwóch krótkich artykułów, w szczególności Stephena Senna; W pełni zgadzam się z Sennem.

Gdybym przeczytał te artykuły przed zadaniem tego pytania, najprawdopodobniej nigdy bym tego nie opublikował. Goodman (w przeciwieństwie do Cumminga) bardzo wyraźnie stwierdza, że uważa ustawienie bayesowskie z płaskim przeorem. Nie przedstawia rozkładów wartości jak robi to Cumming, a zamiast tego zgłasza prawdopodobieństwo zaobserwowania „istotnego” wyniku w eksperymencie replikacji: $p$ $p<0.05$

Jego głównym punktem jest to, że prawdopodobieństwa te są zaskakująco niskie (nawet dla jest to tylko ). W szczególności dla jest to tylko . (To ostatnie prawdopodobieństwo pozostaje takie samo dla każdego i .) $p=0.001$ $0.78$ $p=0.05$ $0.5$ $1/2$ $\alpha$ $p=\alpha$

Punktem post Senn jest to, że jest to przydatne, obserwacja, która jednak ma nie podważają -values w jakikolwiek sposób i czy nie , w przeciwieństwie do Goodman, oznacza to, że -values „zawyżają dowodów przeciwko null”. On pisze: $p$ $p$

Uważam również, że jego demonstracja [Goodmana] jest przydatna z dwóch powodów. Po pierwsze, służy on jako ostrzeżenie dla każdego, kto planuje dalsze badanie podobne do tego, które właśnie zostało ukończone (i które ma nieznacznie znaczący wynik), że nie można go dopasować w drugim badaniu. Po drugie, służy jako ostrzeżenie, że można oczekiwać powszechnej widocznej niespójności wyników poszczególnych badań i że nie należy nadmiernie reagować na to zjawisko.

$p$ $H_0:\mu<0$ $\mu$

$p$ $p$ $1/2$ $p=0.05$ $0.5$ $p_\mathrm{obs}$

$0.5$ $50$ $5$

$p$ $p=0.05$ $1$

$2.5$

— ameba mówi Przywróć Monikę
źródło

5

(+1) Na szczęście nie spotkałeś Goodmana ani Senna, dopóki tego nie zrobiłeś. :-)

— kardynał

6

Dziękujemy wszystkim za dalszą ciekawą dyskusję. Zamiast komentować punkt po punkcie, przedstawię kilka ogólnych przemyśleń.

Bayes. Nie mam nic przeciwko podejściom bayesowskim. Od samego początku spodziewałem się, że analiza bayesowska, zakładając płaską lub rozproszoną wcześniejszą, dałaby takie same lub bardzo podobne przedziały prognozowania. Jest p. Na str. 291 w artykule z 2008 roku na ten temat, częściowo pod wpływem jednego z recenzentów. Dlatego cieszę się, widząc powyżej, jak działa to podejście. To świetnie, ale jest to zupełnie inne podejście niż to, które podjąłem.

Nawiasem mówiąc, postanowiłem popierać przedziały ufności (nowe statystyki: wielkości efektów, CI, metaanaliza) zamiast bayesowskiego podejścia do szacowania (oparte na wiarygodnych przedziałach), ponieważ nie wiem, jak wyjaśnić Bayesowskie podejście do początkujących wystarczająco dobrze. Nie widziałem żadnego naprawdę wprowadzającego podręcznika bayesowskiego, który według mnie mógłby być przydatny dla początkujących, lub który może być dostępny i przekonujący dla wielu badaczy. Dlatego musimy szukać gdzie indziej, jeśli chcemy mieć przyzwoitą szansę na poprawę sposobu, w jaki naukowcy dokonują wnioskowania statystycznego. Tak, musimy wyjść poza swartości i przejść od dychotomicznego podejmowania decyzji do szacowania, a Bayesianie mogą to zrobić. Jednak imho, o wiele bardziej prawdopodobne jest osiągnięcie praktycznych zmian, jest konwencjonalnym podejściem do CI. Właśnie dlatego niedawno opublikowany podręcznik statystyk wprowadzających przyjmuje nowe podejście do statystyki. Zobacz www.thenewstatistics.com

Powrót do refleksji. Najważniejsze dla mojej analizy jest to, co mam na myśli, znając jedynie wartość p z pierwszego badania. Podane przeze mnie założenia są określone (normalna populacja, losowe próbkowanie, znana SD populacji, więc możemy korzystać z obliczeń z zamiast t podczas przeprowadzania wnioskowania na temat średniej populacji, dokładnej replikacji). Ale to wszystko, co zakładam. Moje pytanie brzmi: „tylko p z początkowego eksperymentu, jak daleko możemy się posunąć?” Mój wniosek jest taki, że możemy znaleźć rozkład p oczekiwany w eksperymencie replikacji. Z tego rozkładu możemy wyprowadzić interwały p lub dowolne prawdopodobieństwo zainteresowania, takie jak prawdopodobieństwo, że replikacja da p<.05 lub dowolna inna interesująca wartość.

Rdzeń argumentu i być może etap warty największej refleksji pokazano na rycinie A2 w artykule. Dolna połowa jest prawdopodobnie bezproblemowa. Jeśli wiemy, że mu (zwykle osiągane przy założeniu, że jest ono równe średniej z początkowego badania), wówczas błędy oszacowania, reprezentowane przez segmenty linii grubej, mają znany rozkład (normalny, średni mu, SD, jak wyjaśniono w podpisie).

Następnie duży krok: rozważ górną połowę rysunku 2A. Nie mamy żadnych informacji o mu. Brak informacji - żadnych ukrytych założeń dotyczących przeora. Możemy jednak podać rozkład tych grubych segmentów linii: normalny, średnia zero, SD = SQRT (2) razy SD w dolnej połowie. To daje nam to, czego potrzebujemy, aby znaleźć rozkład replikacji p .

Wynikowe interwały p są zadziwiająco długie - przynajmniej odczuwam zdziwienie, gdy porównuję sposób, w jaki wartości p są praktycznie powszechnie stosowane przez badaczy. Badacze zwykle mają obsesję na punkcie drugiego lub trzeciego miejsca po przecinku wartości p , nie zdając sobie sprawy, że wartość, którą widzą, mogłaby bardzo łatwo być naprawdę inna. Stąd moje komentarze na str. 293-4 dotyczące zgłaszania odstępów p w celu potwierdzenia niejasności p .

Długo tak, ale to nie znaczy, że p z początkowego eksperymentu nic nie znaczy. Po bardzo niskim początkowym p , replikacje będą miały zwykle małe wartości p . Wyższe początkowe p i replikacje będą miały zwykle nieco większe wartości p . Tabela 1 na str. 292 i porównaj na przykład przedziały pw prawej kolumnie dla początkowych p = 0,001 i .1 - dwa wyniki tradycyjnie uważane za oddalone od siebie o mile. Przedziały dwóch p są zdecydowanie różne, ale ich nakładanie się jest ogromne. Replikacja eksperymentu .001 mogłaby dość łatwo dać pwiększa niż replikacja eksperymentu .1. Chociaż najprawdopodobniej nie.

W ramach swoich badań doktoranckich Jerry Lai opublikował ( Lai i in., 2011 ) kilka fajnych badań, które wykazały, że opublikowani badacze z wielu dyscyplin mają subiektywne odstępy p, które są zdecydowanie zbyt krótkie. Innymi słowy, badacze mają tendencję do drastycznego niedoszacowania, jak różna może być wartość p replikacji.

Mój wniosek jest taki, że po prostu nie powinniśmy w ogóle używać wartości p . Zgłoś i omów 95% przedział ufności, który przekazuje wszystkie informacje w danych, które mówią nam o średniej populacji, którą badamy. Biorąc pod uwagę CI, wartość p nic nie dodaje i prawdopodobnie błędnie sugeruje pewien stopień pewności (Znaczący! Nieznaczny! Efekt istnieje! Nie ma!). Jasne, wartości CI i p opierają się na tej samej teorii i możemy konwertować z jednej na drugą (jest o tym wiele w Rozdziale 6 naszego podręcznika wprowadzającego). Ale CI daje znacznie więcej informacji niż p . Co najważniejsze, uwidacznia zakres niepewności. Biorąc pod uwagę naszą ludzką skłonność do pojmowania pewności, należy rozważyć zakres CI.

Próbowałem również podkreślić zmienność wartości p w filmach z tańcem wartości p . Google „taniec wartości p ”. Istnieje co najmniej kilka wersji.

Niech wszystkie przedziały ufności będą krótkie!

Geoff

— Geoff Cumming
źródło

3

Dzięki za te dodatkowe komentarze, Geoff. Zgadzam się z niektórymi punktami tutaj (np. W sprawie „stopnia pewności”) i nie zgadzam się z niektórymi innymi (np. „Biorąc pod uwagę CI, wartość p nic nie dodaje”), ale w szczególności jedna rzecz, którą muszę powtórzyć: nie że istnieje jakikolwiek sposób, aby wykonać analizę bez Bayesa przed. Argument przedstawiony na rysunku A2 wymaga płaskiego uprzedniego założenia jako ukrytego założenia. Można założyć inne priorytety i osiągnąć bardzo różne wyniki; Nie sądzę, aby istniał jakikolwiek argument o charakterze czysto częstym, który mógłby poprzeć twoje wnioski. Zobacz komentarze @ Whubera powyżej.

— ameba mówi Przywróć Monikę

@Geoff Cumming - Twoje komentarze na temat edukacji statystycznej i interpretacji wyników są bardzo mile widziane.

— rolando2