Przykłady badań z wykorzystaniem p <0,001, p <0,0001 lub nawet niższych wartości p?

11

Pochodzę z nauk społecznych, gdzie p <0,05 jest prawie normą, przy czym p <0,1 ip <0,01 również się pojawiają, ale zastanawiałem się: jakie kierunki studiów, jeśli w ogóle, używają niższych wartości p jako wspólnej standard?

statistical-significance p-value

— Ks.
źródło

9

Moim zdaniem jest to (i nie powinno) zależeć od kierunku studiów. Na przykład możesz dobrze pracować na niższym poziomie istotności niż jeśli na przykład próbujesz powtórzyć badanie z wynikami historycznymi lub ugruntowanymi (mogę pomyśleć o kilku badaniach dotyczących efektu Stroopa , które doprowadziły do niektórych kontrowersji w ciągu ostatnich kilku lat). Sprowadza się to do rozważenia niższego „progu” w klasycznej strukturze Neymana-Pearsona do testowania hipotezy. Jednak znaczenie statystyczne i praktyczne (lub merytoryczne) to inna sprawa. $p<0.001$

Sidenote . „Układ gwiezdny” zdaje się dominować w badaniach naukowych już w latach 70., ale patrz The Earth Is Round (p <.05), J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003), pomimo faktu, że często chcemy wiedzieć o danych, które obserwowałem, jakie jest prawdopodobieństwo, że jest prawdziwe? W każdym razie jest także miła dyskusja Jerry'ego Dallala na temat „ Dlaczego P = 0,05? ”. $H_0$

— chl
źródło

Proszę poprawić mój tok myślenia: niektóre pola mogą skupiać się, powiedzmy, na ekspozycji biochemicznej, a zatem chcą zastosować p <0,001, aby zapobiec błędom typu I, które mogą prowadzić do zagrożenia zdrowia. Poza tym, w tym artykule z Am Psych , pamiętam również świetne studium w Am J of Sociol lub w jednym z czasopism społecznych, które śledzę . Moim ulubionym jest oczywiście Ziliak i McCloskey .

— ks.

1

To, co tu opisujesz, brzmi wstecz. Martwiłbym się błędami typu II, mówiąc, że czegoś tam nie ma, z ekspozycją biochemiczną. W takim przypadku mógłbym ustawić alfa wyżej, a nie niżej.

— John

Pracowałem przy założeniu, że test miałby postać: „Sprawdźmy, czy ciąża jest związana z HTZ” (w takim przypadku błąd typu I jest poważniejszy niż błąd typu II, ale być może ten projekt jest niestandardowy).

— ks.

7

Może być rzadkie, aby ktoś używał wcześniej określonego poziomu alfa niższego niż, powiedzmy, 0,01, ale nie jest tak rzadkie, że ludzie twierdzą, że wartość alfa jest mniejsza niż 0,01 w błędnym przekonaniu, że zaobserwowana wartość P jest mniejsza niż 0,01 jest taki sam jak alfa Neymana-Pearsona o wartości mniejszej niż 0,01.

Wartości P Fishera nie są takie same ani wymienne z poziomami błędów Neymana-Pearsona. nie oznacza chyba że zdecydowano się zastosować jako poziom krytyczny dla istotności przy projektowaniu eksperymentu. Jeśli przyjęlibyście za znaczące, to oznacza, że istnieje prawdopodobieństwo fałszywie dodatniego twierdzenia. $P = 0.0023$ $\alpha = 0.0023$ $0.0023$ $P = 0.05$ $P = 0.0023$ $0.05$

Spójrz na Hubbard i in. Zamieszanie w zakresie miar dowodów (p) i błędów (α) w klasycznych testach statystycznych. The American Statistician (2003) vol. 57 (3)

— Michael Lew
źródło

Rozumiem to rozróżnienie, chociaż prawdopodobnie rutynowo popełniam błąd. Ale moje pytanie brzmi, czy istnieje jakieś konwencjonalne użycie, na przykład, p <.0001? Czy prowokacyjnie mówiąc, czy kult p <0,05 jest uniwersalny?

— ks.

„Kult” P <0,05 może być prawie uniwersalny, ale nie można mieć pewności co do jakichkolwiek twierdzeń w tej kwestii, ponieważ pozorne wyjątki prawdopodobnie wynikają z nieświadomej hybrydyzacji metod Fishera i Neymana-Pearsona. W podstawowych artykułach z badań farmakologicznych prawie nigdy nie ma wyraźnego oświadczenia dotyczącego stosowania poziomów błędów Neyman-Pearson.

— Michael Lew

Dzięki za przykład. Coraz mniej jestem pod wrażeniem badań farmakologicznych z wielu (nie wszystkich naukowych) powodów…

— Ks.

1

Nie powinieneś traktować mojego komentarza na temat podstawowych badań farmakologicznych jako swoistej krytyki tej dziedziny, to tylko moja szczególna dyscyplina, a zatem ta, z którą jestem najbardziej doświadczony. Jestem przekonany, że w badaniach podstawowych można znaleźć wiele obszarów z dokładnie tymi samymi niedociągnięciami w odniesieniu do hybrydowych wartości P i poziomów błędów.

— Michael Lew

Nie martw się, mogę łatwo wyobrazić sobie, że to niedociągnięcie dobrze sprawdza się w różnych obszarach badań.

— ks.

3

Nie znam się zbyt dobrze na tej literaturze, ale uważam, że niektórzy fizycy stosują znacznie niższe progi w testach statystycznych, ale mówią o tym trochę inaczej. Na przykład, jeśli miarą są trzy standardowe odchylenia od teoretycznej prognozy, opisuje się to jako odchylenie „trzech sigm”. Zasadniczo oznacza to, że parametr będący przedmiotem zainteresowania jest statystycznie różny od przewidywanej wartości w teście az przy α = 0,01. Dwa sigma jest mniej więcej równoważne α = 0,05 (w rzeczywistości byłoby to 1,96 σ). Jeśli się nie mylę, standardowy poziom błędu w fizyce wynosi 5 sigma, co byłoby α = 5 * 10 ^ -7

Ponadto w neuronauce lub epidemiologii coraz częściej wydaje się, że rutynowo wykonuje się pewną korektę dla wielu porównań. Poziom błędu dla każdego testu może być zatem niższy niż p <0,01

— Gala
źródło

1

α = 5 \times 10^{- 8}

$\alpha=5\times10^{-8}$

1

Jak zauważył Gaël Laurans powyżej analizy statystyczne, które napotykają problem wielokrotnego porównywania, mają tendencję do stosowania bardziej konserwatywnych progów. Jednak w zasadzie używają 0,05, ale pomnożone przez liczbę testów. Oczywiste jest, że ta procedura (korekcja Bonferroniego) może szybko doprowadzić do niewiarygodnie małych wartości p. Właśnie dlatego ludzie w przeszłości (w neuronauce) zatrzymywali się przy p <0,001. Obecnie stosuje się inne metody wielokrotnych korekt porównawczych (patrz losowa teoria pola Markowa).

— użytkownik12719
źródło