Jaki jest dobry, przekonujący przykład, w którym wartości p są przydatne?

64

Moje pytanie w tytule jest oczywiste, ale chciałbym nadać mu pewien kontekst.

ASA opublikowała na początku tego tygodnia oświadczenie „w sprawie wartości p: kontekst, proces i cel ”, nakreślając różne powszechne błędne przekonania o wartości p i zalecając ostrożność, aby nie używać jej bez kontekstu i przemyślenia (co można powiedzieć tylko o jakakolwiek metoda statystyczna).

W odpowiedzi na ASA profesor Matloff napisał post na blogu: Po 150 latach ASA mówi NIE wartościom p . Następnie profesor Benjamini (i ja) napisał post zatytułowany To nie jest wina wartości p - refleksje na temat ostatniego oświadczenia ASA . W odpowiedzi profesor Matloff zapytał w kolejnym poście :

Chciałbym zobaczyć [...] - dobry, przekonujący przykład, w którym wartości p są przydatne. To naprawdę musi być sedno.

Aby zacytować jego dwa główne argumenty przeciwko przydatności -value: $p$

Przy dużych próbach testy istotności rzucają się na małe, nieważne odstępstwa od hipotezy zerowej.
Prawie żadne hipotezy zerowe nie są prawdziwe w prawdziwym świecie, więc wykonanie na nich testu istotności jest absurdalne i dziwaczne.

Jestem bardzo zainteresowany tym, co inni crossvalidated członkowie społeczności sądzą o tym pytaniu / argumentach i co może stanowić dobrą odpowiedź na to pytanie.

— Tal Galili
źródło

5

Zwróć uwagę na dwa kolejne wątki związane z tym tematem: stats.stackexchange.com/questions/200500/... i stats.stackexchange.com/questions/200745/…

— Tim

2

Dzięki Tim. Podejrzewam, że moje pytanie jest na tyle inne, że zasługuje na własny wątek (zwłaszcza, że nie było na nie odpowiedzi w dwóch, o których wspomniałeś). Mimo to linki są bardzo interesujące!

— Tal Galili

3

Zasługuje i jest interesujący (stąd moje +1), podałem linki tylko dla ciebie :)

— Tim

3

Muszę powiedzieć, że nie przeczytałem (jeszcze) tego, co napisał Matloff na ten temat, ale jednak, aby twoje pytanie samo się stało, czy możesz krótko streścić, dlaczego nie znajduje on żadnego standardowego przykładu użycia wartości p dobry / przekonujący ”? Np. Ktoś chce zbadać, czy określona manipulacja eksperymentalna zmienia zachowanie zwierząt w określonym kierunku; tak grupy eksperymentalne i kontrolne są mierzone i porównywane. Jako czytelnik takiego artykułu cieszę się, widząc wartość p (tzn. Są one dla mnie przydatne), ponieważ jeśli jest duża, nie muszę zwracać na nią uwagi. Ten przykład nie wystarczy?

— ameba mówi Przywróć Monikę

1

@amoeba - wymienia je tutaj: matloff.wordpress.com/2016/03/07/… ----- Cytując swoje argumenty: 1) przy dużych próbach, testy istotności rzucają się na małe, nieważne odstępstwa od hipotezy zerowej. 2) Prawie żadne hipotezy zerowe nie są prawdziwe w prawdziwym świecie, więc wykonanie na nich testu istotności jest absurdalne i dziwaczne. ----- Mam własne zdanie na ten temat (które chciałbym później sformalizować), ale jestem pewien, że inni będą mieli wnikliwe sposoby na rozwiązanie tego problemu.

— Tal Galili

44

Rozważę oba punkty Matloffa:

Przy dużych próbach testy istotności rzucają się na małe, nieważne odstępstwa od hipotezy zerowej.

Logika jest tutaj taka, że jeśli ktoś zgłasza wysoce znaczące , to na podstawie samej tej liczby nie możemy stwierdzić, czy efekt jest duży i ważny, czy nieistotny niewielki (jak to może się zdarzyć z dużym ). Uważam ten argument za dziwny i w ogóle nie mogę się z nim połączyć, ponieważ nigdy nie widziałem badań, które zgłosiłyby wartość bez zgłaszania wielkości efektu. Badania, które przeczytałem, powiedzą np. (I zwykle pokazują na rycinie), że grupa A miała taką i taką średnią, grupa B miała taką i taką średnią i były one znacząco różne z taką i taką wartością . Mogę oczywiście sam ocenić, czy różnica między A i B jest duża czy mała. $p=0.0001$ $n$ $p$ $p$

(W komentarzach @RobinEkman wskazał mi kilka bardzo cytowanych badań Ziliaka i McCloskeya ( 1996 , 2004 ), którzy zauważyli, że większość artykułów ekonomicznych trąci „statystycznym znaczeniem” niektórych efektów, nie zwracając uwagi na wielkość efektu i jego „praktyczne znaczenie” (które, jak twierdzą Z&MS, często może być niewielkie). Jest to wyraźnie zła praktyka. Jednak, jak wyjaśniono poniżej @ MatteoS, wielkości efektów (szacunki regresji) są zawsze zgłaszane, więc mój argument jest podtrzymany.)
Prawie żadne hipotezy zerowe nie są prawdziwe w prawdziwym świecie, więc wykonanie na nich testu istotności jest absurdalne i dziwaczne.

Ta troska jest również często wyrażana, ale tutaj nie mogę się z nią naprawdę połączyć. Ważne jest, aby zdawać sobie sprawę, że naukowcy nie zwiększają swojego $n$ ad infinitum . W znanej mi dziedzinie neuronauki ludzie przeprowadzają eksperymenty z a może , powiedzmy, szczurami. Jeśli nie widać żadnego efektu, wówczas wniosek jest taki, że efekt nie jest wystarczająco duży, aby był interesujący. Nikt nie wiem, pójdzie na hodowli, szkolenia, nagrywania i poświęcania szczury, aby pokazać, że nie jest pewne istotne statystycznie, ale mały efekt. Oraz mając na uwadze, że może być prawdą, że prawie żadne realne efekty są dokładnie zero, to jest $n=20$ $n=50$ $n=5000$ z pewnością prawda, że wiele wielu rzeczywistych efektów jest wystarczająco małych, aby można je było wykryć przy rozsądnych rozmiarach próby, których rozsądni badacze faktycznie używają, dokonując właściwego osądu.

(Istnieje uzasadniona obawa, że rozmiary próbek często nie są wystarczająco duże i że wiele badań jest słabych. Być może więc badacze z wielu dziedzin powinni raczej dążyć do, powiedzmy, zamiast Mimo to, bez względu na wielkość próby ogranicza limit wielkości efektu, który badanie może wykryć). $n=100$ $n=20$

Ponadto nie sądzę, że zgadzam się z tym, że prawie żadne hipotezy zerowe nie są prawdziwe, przynajmniej nie w eksperymentalnych badaniach randomizowanych (w przeciwieństwie do obserwacji). Dwa powody:
- Bardzo często występuje kierunkowość testowanej prognozy; badacz stara się wykazać, że jakiś efekt jest dodatni . Zgodnie z konwencją zwykle wykonuje się to z dwustronnym testem przyjmującym punkt zerowy ale w rzeczywistości jest to raczej jednostronny test próbujący odrzucić . (Odpowiedź @ CliffAB, +1, zawiera pokrewny punkt.) I to z pewnością może być prawda. $\delta>0$ $H_0: \delta=0$ $H_0: \delta<0$
- Nawet mówiąc o punkcie „zero” zero $H_0: \delta=0$ , nie rozumiem, dlaczego nigdy nie są prawdziwe. Niektóre rzeczy nie są po prostu przyczynowo związane z innymi rzeczami. Spójrz na badania psychologiczne, które nie powielały się w ostatnich latach: ludzie czują przyszłość; kobiety ubrane na czerwono podczas owulacji; wypełnianie słowami związanymi ze starością mającymi wpływ na prędkość chodzenia; itp. Może się zdarzyć, że w ogóle nie ma tu żadnych związków przyczynowych, więc prawdziwe efekty są dokładnie zerowe.

Sam Norm Matloff sugeruje stosowanie przedziałów ufności zamiast wartości ponieważ pokazują one wielkość efektu. Przedziały ufności są dobre, ale zauważają jedną wadę przedziału ufności w porównaniu do wartości : przedział ufności jest zgłaszany dla jednej określonej wartości pokrycia, np. . Widzenie przedziału ufności nie mówi mi, jak szeroki byłby przedział ufności . Ale jedną wartość można porównać z dowolnym a różni czytelnicy mogą mieć na myśli różne . $p$ $p$ $95\%$ $95\%$ $99\%$ $p$ $\alpha$

Innymi słowy, myślę, że dla kogoś, kto lubi korzystać z przedziałów ufności, wartość jest przydatną i znaczącą dodatkową statystyką do zgłoszenia. $p$

Chciałbym podać długi cytat na temat praktycznej przydatności wartości mojego ulubionego blogera Scotta Alexandra; nie jest statystykiem (jest psychiatrą), ale ma duże doświadczenie w czytaniu literatury psychologicznej / medycznej i analizowaniu zawartych w niej statystyk. Cytat pochodzi z jego postu na blogu na temat fałszywej analizy czekolady, którą gorąco polecam. Podkreśl moje. $p$

[...] Załóżmy jednak, że nie wolno nam dokonywać wartości . Wszystko, co robię, to mówię „Tak, było piętnaście badań, w których stwierdzono, że czekolada pomogła w oporności na insulinę”, a ty śmiejesz się na mojej twarzy. Pomaga w tym wielkość efektu. Przypuśćmy jednak, że mówię: „Przeprowadzono badanie z piętnastoma osobami, w których stwierdzono, że czekolada pomogła w insulinooporności. Wielkość efektu wynosiła ”. Nie mam żadnej intuicji, czy jest to zgodne z przypadkowym hałasem. Czy ty? Okej, więc mówią, że powinniśmy zgłaszać przedziały ufności. Rozmiar efektu wynosił , z przedziałem ufności wynoszącym $p$ $0.6$ $0.6$ $95\%$ $[0.2, 1.0]$ . W porządku. Sprawdzam więc dolną granicę przedziału ufności, widzę, że różni się od zera. Ale teraz nie przekraczam $p$ -wartość. Po prostu używam wartości p, wykonując niejasne obliczenia, ja sama - „ przedział ufności nie zawiera zera” jest taki sam jak „ $95\%$ $p$ wartość jest mniejsza niż ”. $0.05$

(Wyobraź sobie, że chociaż znam $95\%$ przedział ufności nie zawiera zera, zaczynam się zastanawiać, czy przedział ufności robi. Gdyby tylko istniała jakaś statystyka, która dałaby mi te informacje!) $99\%$

Ale czy pozbycie się wartości nie zapobiegnie „ hakowaniu ”? Może, ale po prostu ustąpi miejsca „hakowaniu”. Nie sądzisz, że mógłbyś przetestować dwadzieścia różnych parametrów metabolicznych i zgłosić tylko ten o najwyższym rozmiarze efektu? Jedyną różnicą jest to, że p-hacking jest całkowicie przezroczysty - jeśli nie dwadzieścia testy i zgłosić o $p$ $p$ $p$ $0.05$ , wiem, że jesteś idiotą - ale hackowanie d byłoby niezrozumiałe. Jeśli zrobisz dwadzieścia testów i poinformujesz, że jeden z nich otrzymał , czy to robi wrażenie? [...] $d = 0.6$

Ale czy przejście od wartości do wielkości efektów nie powstrzymałoby ludzi przed robieniem wielkich rzeczy na temat drobnych efektów, które mimo to są statystycznie istotne? Tak, ale czasami chcemy zrobić coś wielkiego o drobnych efektach, które mimo to są statystycznie znaczące! Załóżmy, że Coca-Cola testuje nowy dodatek do produktu i odkrywa w dużych badaniach epidemiologicznych, że powoduje jedną dodatkową śmierć na sto tysięcy ludzi rocznie. To wielkość efektu wynosząca około zero, ale nadal może być istotna statystycznie. A ponieważ około miliarda ludzi na całym świecie pije colę każdego roku, to dziesięć tysięcy zgonów. Gdyby Coke powiedziała „Nie, rozmiar efektu jest zbyt mały, nie warto o tym myśleć”, zabiliby ludzi o wartości prawie dwóch milionów Hitlerów. $p$

Aby uzyskać dalsze omówienie różnych alternatyw dla wartości (w tym bayesowskich), zobacz moją odpowiedź w ASA omawia ograniczenia wartości - jakie są alternatywy? $p$ $p$

— ameba mówi Przywróć Monikę
źródło

1

Twoja odpowiedź na drugi argument jest, moim zdaniem, błędna. Nikt nie sugeruje, że prawdziwi badacze zwiększają swoje rozmiary próbek w nieskończoność. Chodzi o to, że (jak widzę) każda hipoteza zerowa w formie „efekt = 0”, którą badacz byłby zainteresowany testowaniem, będzie fałszywa, a przeprowadzanie testu hipotez nie ma żadnej wartości, jeśli hipoteza zerowa jest już znany jako fałszywy. Zakłada to oczywiście, że tak naprawdę interesuje nas odpowiedni parametr (parametry) populacji, a nie cechy próby.

— mark999

1

Przyznaję jednak, że „każda hipoteza zerowa… będzie fałszywa” to tylko założenie.

— mark999

1

Muszę przyznać, że moje rozumowanie tutaj było raczej nieformalne i nigdy nie próbowałem go sformalizować. Być może, aby ten argument działał, nie powinienem powiedzieć, że istnieje wyraźna granica między interesującymi i nieciekawymi rozmiarami efektów. Raczej jest to kontinuum z ciekawością rosnącą dalej od zera, a „rozsądna” wielkość próbki powinna dać niewielką moc bardzo nieciekawym rozmiarom efektu i dużą moc bardzo interesującym, ale nie ma jednego progu. Zastanawiam się, czy można dokładnie sformalizować go według linii Neymana-Pearsona.

— ameba mówi Przywróć Monikę

6

Może ty „Nigdy nie widziałem badania, które byłoby zgłosić -value bez zgłaszania [jakiś odpowiednik] rozmiarze Effect”, ale Ziliak i McCloskey znaleziono około 300 takie dokumenty opublikowane w jednym czasopiśmie American Economic Review, w ciągu zaledwie dwóch dekad . Takie papiery stanowiły ponad 70% wszystkich papierów, które przeglądały.

p

$p$

— Robin Ekman

3

@amoeba: źródłem 70% roszczenia może być dwuznaczne sformułowanie w streszczeniu z 2006 roku: „ze 182 pełnych artykułów opublikowanych w latach 80. w [AER] 70% nie odróżniało znaczenia ekonomicznego od statystycznego”. Rozumieją przez to - jak wyjaśniono w obu artykułach - to, że często komentuje się tylko to drugie, i że wielkość współczynnika regresji w stosunku do zmiennej zależnej („znaczenie ekonomiczne” w ich żargonie) nie jest tak szeroko analizowana . Ale zawsze jest zgłaszane. Sugeruję edycję aktualizacji w odpowiedzi, aby odzwierciedlić to :-)

— MatteoS,

29

Wielce obrażam się na następujące dwa pomysły:

Przy dużych próbach testy istotności rzucają się na małe, nieważne odstępstwa od hipotezy zerowej.

Prawie żadne hipotezy zerowe nie są prawdziwe w prawdziwym świecie, więc wykonanie na nich testu istotności jest absurdalne i dziwaczne.

To taki słaby argument o wartościach p. Bardzo fundamentalny problem, który zmotywował rozwój statystyki, wynika z obserwowania trendu i chęci dowiedzenia się, czy to, co widzimy, jest przypadkowe, czy reprezentatywne dla systematycznego trendu.

$H_o: \mu_d = 0$ $\mu_d$ $\mu_d \neq 0$ $\mu_d > 0$ $\mu_d < 0$ . Więc jeśli przeprowadzimy nasz eksperyment i do tego dojdziemy $\mu_d > 0$ $\mu_d = 0$ $\mu_d < 0$

To prawda, że nie mówi to o wielkości efektu. Ale mówi ci kierunek efektu. Nie stawiajmy więc wozu przed koniem; zanim zacznę wyciągać wnioski na temat wielkości efektu, chcę mieć pewność, że mam właściwy kierunek efektu!

$H_{1}:\mu_d > 1$ $H_{2}: \mu_d < -1$

Aby dodatkowo to zilustrować, załóżmy, że po prostu spojrzeliśmy na przedziały ufności i odrzucone wartości p. Jaka jest pierwsza rzecz, którą można sprawdzić w przedziale ufności? Czy efekt był ściśle pozytywny (czy negatywny) przed potraktowaniem wyników zbyt poważnie. Jako takie, nawet bez wartości p, nieformalnie przeprowadzilibyśmy testy hipotez.

Wreszcie, w odniesieniu do wniosku OP / Matloffa: „Podaj przekonujący argument, że wartości p są znacznie lepsze”, myślę, że pytanie jest nieco dziwne. Mówię to, ponieważ w zależności od twojego widoku automatycznie odpowiada sobie („daj mi konkretny przykład, w którym testowanie hipotezy jest lepsze niż jej testowanie”). Jednak szczególny przypadek, który moim zdaniem jest prawie niezaprzeczalny, dotyczy danych RNAseq. W tym przypadku zazwyczaj przyglądamy się poziomowi ekspresji RNA w dwóch różnych grupach (tj. Chorym, kontrolnym) i próbujemy znaleźć geny, które są różnicowane w dwóch grupach. W tym przypadku sam rozmiar efektu nie jest nawet tak naprawdę znaczący. Wynika to z faktu, że poziomy ekspresji różnych genów różnią się tak gwałtownie, że dla niektórych genów dwukrotna wyższa ekspresja nic nie znaczy, podczas gdy w przypadku innych ściśle regulowanych genów, 1,2-krotnie wyższa ekspresja jest śmiertelna. Tak więc rzeczywista wielkość wielkości efektu jest w rzeczywistości nieco nieciekawa przy pierwszym porównywaniu grup. Ale tynaprawdę, naprawdę chcę wiedzieć, czy ekspresja genu zmienia się między grupami i kierunkiem zmiany! Co więcej, znacznie trudniej jest rozwiązać problem wielokrotnych porównań (dla których można wykonać 20 000 z nich w jednym przebiegu) z przedziałami ufności niż z wartościami p.

— Cliff AB
źródło

2

Nie zgadzam się, że znajomość kierunku efektu jest sama w sobie przydatna. Jeśli Pluję na ziemi, wiem, że to będzie albo poprawić lub hamują wzrost roślin (czyli hipoteza zerowa jest fałszywa bez efektu). Jak znając kierunek ten efekt bez jakiejkolwiek informacji na temat jego wielkości jest pomocna? Ale to jedyna rzecz, o której mówi wartość p z twojego dwustronnego testu / dwóch jednostronnych testów (tak jakby)! (BTW, myślę, że przykład „pluć na ziemię” został zapożyczony z jakiegoś papieru na temat wartości p, które czytałem lata temu, ale nie pamiętam, który z nich.)

— Karl Ove Hufthammer

3

@KarlOveHufthammer: Wózek przed koniem. Nie powinienem się zatrzymywać tylko dlatego, że znam kierunek efektu. Ale powinienem się martwić, że mam właściwy kierunek, zanim zacznę się martwić o wielkość. Czy uważasz, że społeczności naukowej byłoby lepiej, gdyby obejmował wszystko z dużymi szacowanymi efektami bez sprawdzania wartości p?

— Cliff AB

3

H_{a} : μ_{d} > 1

$H_a: \mu_d > 1$

H_{a} : μ_{d} < - 1

$H_a: \mu_d < -1$

2

Zrobiłeś kilka bardzo dobrych punktów w edycjach. Naprawdę podoba mi się twoja odpowiedź teraz!

— ameba mówi Przywróć Monikę

3

Pracując nad moją odpowiedzią na stats.stackexchange.com/questions/200500 natknąłem się na ten ostatni przedruk Wagenmakers i in., W którym zasadniczo argumentowali oni twoją opinię na temat kierunkowości: „jednostronnym wartościom P można nadać interpretację bayesowską jako przybliżony test kierunku, czyli sprawdzenie, czy efekt utajony jest negatywny czy pozytywny. ” Jest to interesujące, ponieważ Wagenmakers jest zagorzałym Bayesianinem, dużo pisał przeciwko wartościom p. Widzę jednak tutaj pewne porozumienie koncepcyjne.

— ameba mówi Przywróć Monikę

6

Wybacz mi mój sarkazm, ale jednym oczywistym dobrym przykładem użyteczności wartości p jest opublikowanie. Miałem jednego eksperymentatora, który podszedł do mnie w celu uzyskania wartości p ... wprowadził transgen w jednej roślinie, aby poprawić wzrost. Z tej pojedynczej rośliny wyprodukował wiele klonów i wybrał największy klon, przykład, w którym wyliczono całą populację. Jego pytanie, recenzent chce zobaczyć wartość p, że ten klon jest największy. Wspomniałem, że w tym przypadku nie ma potrzeby statystyki, ponieważ miał on pod ręką całą populację, ale bezskutecznie.

Mówiąc poważniej, moim skromnym zdaniem, z akademickiego punktu widzenia uważam te dyskusje za interesujące i stymulujące, podobnie jak debaty częste kontra bayesowskie sprzed kilku lat. Ujawnia różne perspektywy najlepszych umysłów w tej dziedzinie i uwidacznia wiele założeń / pułapek związanych z metodologią, która na ogół nie jest łatwo dostępna.

W praktyce myślę, że zamiast spierać się o najlepsze podejście i zastępować jedną wadliwą miarę inną, jak zasugerowano wcześniej, dla mnie jest to raczej objawienie podstawowego problemu systemowego i należy skupić się na znalezieniu optymalnego rozwiązania. Na przykład można przedstawić sytuacje, w których wartości p i CI uzupełniają się nawzajem oraz okoliczności, w których jedna jest bardziej niezawodna od drugiej. W ogólnym schemacie rzeczy rozumiem, że wszystkie narzędzia wnioskowania mają swoje wady, które należy zrozumieć w każdej aplikacji, aby nie utrudniać postępu w kierunku ostatecznego celu ... głębszego zrozumienia systemu badań.

— ashokragavendran
źródło

6

Podam przykładowy przypadek wykorzystania i raportowania wartości p. To bardzo niedawny raport z poszukiwań tajemniczej cząstki na Wielkim Zderzaczu Hadronów (LHC) w CERN .

Kilka miesięcy temu w kręgach fizyki wysokich energii było dużo podekscytowanych rozmów o możliwości wykrycia dużej cząsteczki na LHC. Pamiętaj, że było to po odkryciu bozonu Higgsa . Oto fragment artykułu „Szukaj rezonansów rozpadających się na pary fotonów w 3,2 fb-1 zderzeń pp przy √s = 13 TeV z detektorem ATLAS” autorstwa The ATLAS Collaboration 15 grudnia 2015 r. I moje komentarze są następujące:

Mówią tutaj, że liczba zdarzeń przekracza to, co przewiduje Model Standardowy . Poniższy rysunek z artykułu pokazuje wartości p zdarzeń nadmiarowych w funkcji masy cząstki. Widzisz, jak wartość p nurkuje około 750 GeV. Mówią więc, że istnieje możliwość wykrycia nowej cząstki o masie równej 750 Giga eV . Wartości p na rysunku są obliczane jako „lokalne”. Globalne wartości p są znacznie wyższe. Nie jest to jednak ważne w naszej rozmowie.

Ważne jest to, że wartości p nie są jeszcze „wystarczająco niskie”, aby fizycy mogli stwierdzić znalezisko, ale „wystarczająco niskie”, aby się podekscytować. Planują więc nadal liczyć i mają nadzieję, że te wartości p jeszcze bardziej spadną.

Powiększ kilka miesięcy do sierpnia 2016 r. W Chicago, konferencji na temat HEP . Pojawił się nowy raport „Poszukiwanie produkcji rezonansowej par fotonów o wysokiej masie przy użyciu 12,9 fb-1 zderzeń proton-proton przy =s = 13 TeV oraz połączonej interpretacji poszukiwań przy 8 i 13 TeV” przez CMS Collaboration . Oto fragmenty moich komentarzy:

Tak więc chłopaki nadal zbierali wydarzenia, a teraz zniknął nadmiar wydarzeń przy 750 GeV. Poniższy rysunek z artykułu pokazuje wartości p i można zobaczyć, jak wartość p wzrosła w porównaniu z pierwszym raportem. Dlatego niestety wyciągają wniosek, że żadna cząstka nie jest wykrywana przy 750 GeV.

Myślę, że w ten sposób powinny być stosowane wartości p. Całkowicie mają sens i wyraźnie działają. Myślę, że powodem jest to, że częste podejścia są z natury naturalne w fizyce. W rozpraszaniu cząstek nie ma nic subiektywnego. Zbierasz wystarczająco dużą próbkę i otrzymujesz wyraźny sygnał, jeśli ona tam jest.

Jeśli naprawdę zastanawiasz się, jak dokładnie obliczane są tutaj wartości p, przeczytaj ten artykuł : „Wzory asymptotyczne dla testów nowej fizyki opartych na prawdopodobieństwie” Cowan i in.

— Aksakal
źródło

2

Wszyscy mieli nadzieję, że szczyt 750 GeV jest prawdziwy i jest teraz smutny. Ale faktycznie miałem nadzieję, że okaże się to fluktuacją (i mógłbym się założyć, że tak się stanie) i teraz odczuwam ulgę. Myślę, że to fajne, że standardowy model działa tak dobrze. Nie do końca rozumiem palące pragnienie wyjścia poza standardowy model (tak jakby wszystko inne w fizyce zostało rozwiązane). W każdym razie +1, dobry przykład.

— ameba mówi Przywróć Monikę

2

Pozostałe wyjaśnienia są w porządku, chciałem tylko udzielić krótkiej i bezpośredniej odpowiedzi na pytanie, które pojawiło się w mojej głowie.

Sprawdzanie nierównowagi współzmiennej w eksperymentach losowych

Twoje drugie twierdzenie (dotyczące nierealistycznych hipotez zerowych) nie jest prawdziwe, gdy sprawdzamy równowagę zmienną towarzyszącą w randomizowanych eksperymentach, w których wiemy, że randomizacja została wykonana prawidłowo. W tym przypadku wiemy, że hipoteza zerowa jest prawdziwa. Jeśli otrzymamy znaczącą różnicę między grupą leczenia a grupą kontrolną na pewnej zmiennej towarzyszącej - oczywiście po kontroli wielu porównań - oznacza to, że dostaliśmy „zły los” w randomizacji i być może nie powinniśmy ufać oszacowaniu przyczynowemu jako wiele. Jest tak, ponieważ możemy sądzić, że nasze szacunkowe efekty leczenia z tej konkretnej randomizacji „złego losowania” są bardziej oddalone od prawdziwych efektów leczenia niż szacunki uzyskane z „dobrego losowania”.

Myślę, że jest to idealne wykorzystanie wartości p. Wykorzystuje definicję wartości p: prawdopodobieństwo otrzymania wartości jako lub bardziej ekstremalnej, biorąc pod uwagę hipotezę zerową. Jeśli wynik jest bardzo mało prawdopodobny, to w rzeczywistości otrzymaliśmy „zły remis”.

Tabele bilansowe / statystyki są również powszechne, gdy wykorzystuje się dane obserwacyjne do próby wnioskowania przyczynowego (np. Dopasowanie, eksperymenty naturalne). Chociaż w tych przypadkach tabele bilansów są dalekie od wystarczających, aby uzasadnić etykietę „przyczynową” szacunków.

Nie zgadzam się, że jest to idealne (lub nawet dobre) wykorzystanie wartości p. Jak zdefiniować „zły remis”?

— mark999

2

@mark, OK. Myślę, że mogę odpowiedzieć na twoje ostatnie pytanie, gdy Matt jest nieobecny: oczywiście w próbce. Wyobraź sobie losowy eksperyment z 50 osobami. Wyobraź sobie, że tak się stało, że wszystkie 25 osób w grupie A okazało się mężczyznami, a wszystkie 25 osób w grupie B okazały się kobietami. Jest całkiem oczywiste, że może to budzić poważne wątpliwości co do jakichkolwiek wniosków z badania; to przykład „złego losowania”. Matt zasugerował przeprowadzenie testu na różnice płci (zmienne towarzyszące) między A i B. Nie rozumiem, jak odpowiedź Matta może być różnie interpretowana. Prawdopodobnie nie ma tu żadnych populacji.

— ameba mówi Przywróć Monikę

1

@ mark999 Ale test różnicy między 12/25 a 13/25 oczywiście przyniesie wysoką nieistotną wartość p, więc nie jestem pewien, o co ci tutaj chodzi. Matt zasugerował przeprowadzenie testu i uznanie niskiej wartości p za czerwoną flagę. W twoim przykładzie nie ma czerwonej flagi. Myślę, że zatrzymam się tutaj i pozwolę Mattowi kontynuować dialog, jeśli chce.

— ameba mówi Przywróć Monikę

4

Nie. Patrz „błąd testu równowagi”: gking.harvard.edu/files/matchse.pdf Opisujesz przypadek, w którym sama statystyka testu może być w porządku (stosowana jako miara odległości w celu zminimalizowania), ale wartość p dla niej nie powoduje zmysł.

— conjugateprior

2

Do nowszej analizy tego w psycho- i neurolingwistyce wprowadzono nowy preprint arXiv . Kiedy rozważasz manipulowanie równowagą itp., Nie próbujesz losowo, a nawet jeśli tak, testy odpowiadają na inne pytanie wnioskowe dotyczące równowagi populacji, a nie równowagi w próbie.

— Livius

2

Kontrola poziomów błędów jest podobna do kontroli jakości w produkcji. Robot na linii produkcyjnej ma zasadę decydującą o tym, że część jest wadliwa, co gwarantuje, że nie przekroczy określonej liczby wadliwych części, które przechodzą niezauważone. Podobnie, agencja, która podejmuje decyzje o zatwierdzeniu leku na podstawie „uczciwych” wartości P, ma sposób na utrzymanie wskaźnika fałszywych odrzuceń na kontrolowanym poziomie, z definicji poprzez częstą długoterminową konstrukcję testów. „Uczciwość” oznacza tutaj brak niekontrolowanych uprzedzeń, ukrytych wyborów itp.

Jednak ani robot, ani agencja nie mają osobistego udziału w żadnym konkretnym leku lub części przechodzącej przez przenośnik montażowy. Z kolei w nauce my, jako indywidualni badacze, najbardziej zależy nam na konkretnej hipotezie, którą badamy, a nie na odsetku fałszywych twierdzeń w naszym ulubionym czasopiśmie, któremu się poddajemy. Ani wartość P, ani granice przedziału ufności (CI) nie odnoszą się bezpośrednio do naszego pytania dotyczącego wiarygodności tego, co zgłaszamy. Kiedy konstruujemy granice CI, powinniśmy powiedzieć, że jedynym znaczeniem tych dwóch liczb jest to, że jeśli inni naukowcy wykonają ten sam rodzaj obliczeń CI w swoich badaniach, 95% lub cokolwiek innego zostanie zachowane w różnych badaniach jako całości .

W tym świetle uważam za ironię, że wartości P są „zakazane” przez czasopisma, biorąc pod uwagę, że w obliczu kryzysu związanego z odtwarzalnością mają one większą wartość dla redaktorów czasopism niż dla badaczy przesyłających swoje prace, jako praktyczny sposób na zachowanie odsetek fałszywych ustaleń zgłoszonych przez czasopismo w zatoce na dłuższą metę. Wartości P są dobre w filtrowaniu lub, jak napisał IJ Good, są dobre do ochrony tylnego końca statystyki, ale nie tyle tylnego końca klienta.

PS Jestem wielkim fanem pomysłu Benjaminiego i Hochberga na przyjęcie bezwarunkowych oczekiwań na podstawie badań z wieloma testami. W ramach globalnego „zerowego” „częsty” FDR jest nadal kontrolowany - badania z jednym lub kilkoma odrzuceniami pojawiają się w czasopiśmie w kontrolowanym tempie, chociaż w tym przypadku każde badanie, w którym rzeczywiście odrzucono, ma proporcję fałszywych odrzuceń równych jeden.

— DZ
źródło

1

Zgadzam się z Mattem, że wartości p są przydatne, gdy hipoteza zerowa jest prawdziwa.

Najprostszym przykładem, jaki mogę wymyślić, jest testowanie generatora liczb losowych. Jeśli generator działa poprawnie, można użyć dowolnej wielkości realizacji i podczas testowania dopasowania wielu próbek wartości p powinny mieć jednolity rozkład. Jeśli tak, jest to dobry dowód na prawidłowe wdrożenie. Jeśli nie, wiesz, że gdzieś popełniłeś błąd.

Inne podobne sytuacje mają miejsce, gdy wiadomo, że zmienna statystyczna lub losowa powinna mieć określony rozkład (ponownie, najbardziej oczywistym kontekstem jest symulacja). Jeśli wartości p są jednolite, znaleziono wsparcie dla prawidłowej implementacji. Jeśli nie, wiesz, że masz problem z kodem.

— soakley
źródło

1

Mogę wymyślić przykład, w którym wartości p są przydatne, w eksperymentalnej fizyce wysokich energii. Patrz ryc. 1 Wykres ten pochodzi z tego artykułu: Obserwacja nowej cząstki w poszukiwaniu bozonu Higgsa modelu standardowego za pomocą detektora ATLAS w LHC

$5 \sigma$ $_\mathrm{H} \approx 125$

— Nicolas Gutierrez
źródło

1

Musisz podać więcej informacji na temat fabuły, wraz z tłem i sposobem, w jaki odnosi się do pierwotnego pytania. To nie jest prawie wystarczająca informacja.

— Greenparker

@Greenparker, próbował dodać trochę tła do fabuły.

— Nicolas Gutierrez

\pm 1 σ

$\pm 1\sigma$