Jeśli chodzi o wartości p, dlaczego 1% i 5%? Dlaczego nie 6% lub 10%?

80

Jeśli chodzi o wartości p , zastanawiam się, dlaczego % i % wydaje się być złotym standardem . Dlaczego nie inne wartości, takie jak % lub %? $1$ $5$ "statistical significance" $6$ $10$

Czy istnieje ku temu podstawowa przyczyna matematyczna, czy jest to po prostu szeroko stosowana konwencja?

— Contango
źródło

2

Co jeśli wszyscy mieli 12 palców? Policzymy podstawę 12, a nie podstawę 10. A to oznacza, że „1%” to 1/144 lub 0,0069444444.

— Contango

77

Jeśli sprawdzisz poniższe odnośniki, zauważysz dość zróżnicowane tło, choć istnieją pewne wspólne elementy.

Liczby te przynajmniej częściowo opierają się na komentarzach Fishera, o których powiedział

(podczas omawiania poziomu 1/20)

Wygodnie jest przyjąć ten punkt za granicę w ocenie, czy odchylenie należy uznać za znaczące, czy nie. Odchylenia przekraczające dwukrotność odchylenia standardowego są zatem formalnie uważane za znaczące

$\quad$ Fisher, RA (1925) Metody statystyczne dla pracowników naukowych , str. 47

Z drugiej strony był czasem szerszy:

Jeśli jeden na dwadzieścia nie wydaje się wystarczająco wysokim prawdopodobieństwem, możemy, jeśli wolimy, narysować linię na jeden na pięćdziesiąt (punkt 2 procent) lub jeden na sto (punkt 1 procent). Osobiście pisarz woli ustawić niski standard znaczenia na poziomie 5 procent i całkowicie ignorować wszystkie wyniki, które nie osiągają tego poziomu. Fakt naukowy należy uznać za ustalony eksperymentalnie tylko wtedy, gdy właściwie zaprojektowany eksperyment rzadko nie daje takiego poziomu istotności.

$\quad$ Fisher, RA (1926) Układ eksperymentów w terenie .
$\quad$ Journal of Ministerstwa Rolnictwa, str. 504

Fisher wykorzystał również 5% na jednym ze stolików swojej książki - ale większość innych stolików miała większą różnorodność poziomów znaczenia

Niektóre z jego komentarzy sugerują bardziej lub mniej ścisłe (tj. Niższe lub wyższe poziomy alfa) podejścia w różnych sytuacjach.

Tego rodzaju powyższa dyskusja doprowadziła do tendencji do tworzenia tabel skupiających poziomy istotności 5% i 1% (a czasem z innymi, np. 10%, 2% i 0,5%) z powodu braku jakichkolwiek innych „standardowych” wartości do użycia.

Jednak w tym artykule Cowles i Davis sugerują, że użycie 5% - lub przynajmniej czegoś zbliżonego - sięga dalej niż komentarz Fishera.

Krótko mówiąc, nasze wykorzystanie 5% (i w mniejszym stopniu 1%) jest dość arbitralną konwencją, chociaż najwyraźniej wiele osób wydaje się, że z powodu wielu problemów mają odpowiedni rodzaj gry w piłkę.

Nie ma powodu, dla którego żadna konkretna wartość powinna być ogólnie stosowana.

Dalsze referencje:

Dallal, Gerard E. (2012). Mały podręcznik praktyki statystycznej. - Dlaczego 0,05?

Stigler, Stephen (grudzień 2008). „Fisher i poziom 5%”. Szansa 21 (4): 12. dostępne tutaj

(Pomiędzy nimi masz sporo tła - wygląda na to, że między nimi jest dobry argument na przemyślenie poziomów istotności przynajmniej w ogólnym ballparku 5% - powiedzmy między 2% a 10% - było mniej więcej w powietrze przez chwilę.)

— Glen_b
źródło

36

Muszę udzielić odpowiedzi bez odpowiedzi (tak jak tutaj ):

„… z pewnością Bóg kocha 0,06 prawie tak bardzo, jak 0,05. Czy można mieć jakiekolwiek wątpliwości, że Bóg postrzega siłę dowodów za lub przeciw zeru jako dość ciągłą funkcję wielkości p?” (str.1277)

Rosnow, RL, i Rosenthal, R. (1989). Procedury statystyczne i uzasadnienie wiedzy w naukach psychologicznych. American Psychologist , 44 (10), 1276-1284. pdf

Artykuł zawiera więcej dyskusji na ten temat.

— Henrik
źródło

9

A co z 0,055? :)

— nico

33

@nico Nikt nie lubi 0,055

— Fomite

18

Uważam, że u tych 5% istnieje pewna psychologia. Muszę powiedzieć, że nie pamiętam, gdzie to wziąłem, ale oto ćwiczenie, które wykonywałem przy każdej klasie statystyk wstępnych.

Wyobraź sobie, że nieznajomy podchodzi do ciebie w pubie i mówi: „Mam tendencyjną monetę, która produkuje głowy częściej niż ogony. Czy chciałbyś kupić ode mnie, abyś mógł obstawiać z kumplami i zarabiać na tym?” Z wahaniem zgadzasz się rzucić okiem i rzuć monetą, powiedz 10 razy. Pytanie : ile razy musi wylądować główkami / ogonami, aby przekonać cię, że jest stronniczy?

Następnie biorę pokaz rąk: kto byłby przekonany, że moneta jest stronnicza, jeśli podział wynosi 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Cóż, pierwsze dwa lub trzy nie przekonają nikogo, a ostatni przekonałoby wszystkich; Jednak 2/8 i 1/9 przekonałyby większość ludzi. Teraz, jeśli spojrzysz na tabelę dwumianową, 2/8 to 5,5%, a 1/9 to 1%. CO BYŁO DO OKAZANIA.

$n$

W innej odpowiedzi Glen_b cytuje Fishera, który dyskutuje o tym, czy te magiczne liczby powinny zostać zmodyfikowane w zależności od tego, jak poważny jest problem, więc nie rób tego. „Istnieje nowe leczenie białaczki twojej siostry, ale albo wyleczy ją 3 miesiące lub zabij ją w 3 dni, więc rzućmy monetami ”- wyglądałoby to tak głupio, jak niesławny komiks xkcd, którego nawet Andrew Gelman nie lubił tak bardzo.

$\chi^2$ test proporcji i jego mocy.

— StasK
źródło

3

Magowie często kontrolują rzut monetą. Statystyka-matematyk-magik (permutacja smaku) Persi Diaconis jest z tego dobrze znany (i wiele, wiele innych).

— Nick Cox,

@StasK - Kilka lat temu zadałem pytanie podobne do tego, co znajduje się w drugim akapicie powyżej. Oto link: stats.stackexchange.com/questions/7036/…

— bill_080,

rachunek, właściwie pytałeś o moc. To pytanie dotyczy poziomu testu.

— StasK

9

Wydaje się, że 5% zaokrąglono z 4,56% przez Fishera, co odpowiada „obszarom końcowym krzywej przekraczającym średnią plus trzy lub minus trzy prawdopodobne błędy” (Hurlbert i Lombardi, 2009).

Kolejnym elementem tej historii wydaje się być reprodukcja tabel z krytycznymi wartościami (Pearson i in., 1990; Lehmann, 1993). Fisher nie uzyskał zgody Pearsona na korzystanie ze swoich tabel (prawdopodobnie zarówno ze względu na marketing własnej publikacji Pearson (Hurlbert i Lombardi, 2009), jak i problematyczną naturę ich związku.

Hurlbert, SH i Lombardi, CM (2009, październik). Ostateczne załamanie się ram teoretycznych decyzji Neymana-Pearsona i powstanie neoFisherii. In Annales Zoologici Fennici (t. 46, nr 5, s. 311–349). Fińskie wydawnictwo zoologiczne i botaniczne

Lehmann, EL (1993). Teorie testowania hipotez Fishera, Neymana-Pearsona: Jedna teoria czy dwie ?. Journal of the American Statistics Association, 88 (424), 1242-1249.

Pearson, ES, Gosset, WS, Plackett, RL i Barnard, GA (1990). Student: biografia statystyczna Williama Sealy'ego Gosseta. Oxford University Press, USA.

Zobacz także: Gigerenzer, G. (2004). Bezmyślne statystyki. The Journal of Socio-Economics, 33 (5), 587-606.

Hubbard, R., i Lindsay, RM (2008). Dlaczego wartości P nie są użyteczną miarą dowodów w testach istotności statystycznej. Teoria i psychologia, 18 (1), 69–88.

— jank
źródło

7

Wydaje mi się, że odpowiedź jest bardziej w teorii gier niż w statystyce. Spalenie 1% i 5% w ogólnej świadomości oznacza, że badacze nie są w stanie skutecznie wybierać poziomów istotności odpowiadających ich predyspozycjom. Powiedzmy, że widzieliśmy artykuł o wartości p 0,055, w którym poziom istotności ustalono na 6% - zadawane będą pytania. 1% i 5% stanowią formę wiarygodnego zobowiązania.

— przypuszczenia
źródło

7

Może, ale czy uważasz, że badacze nie manipulują regresjami, nie używają powtarzanych testów itp., Aby przecisnąć się poniżej ustalonego poziomu 5%, na przykład ...

— kirk

Oczywiście, że jest to możliwe i prawdopodobnie tak się dzieje. Ale pytanie wynosiło około 1% i 5%. Wydaje mi się, że jest to próba ustanowienia społecznej konwencji, kiedy należy zaakceptować coś tak znaczącego. Są to arbitralne, ale arbitralne dla badaczy jako grupy, a nie dla indywidualnych badaczy.

— przypuszcza

3

Zgadzam się, właśnie wskazałem, że posiadanie konwencjonalnych poziomów znaczenia nie oznacza, że nie należy zadawać pytań, jak wywnioskowałeś w swoim poście. To, że artykuł prezentuje znaczący wynik na poziomie konwencjonalnym, nie oznacza, że jest wiarygodny!

— kirk

Ach, używałem wiarygodnego w sensie teorii gier (lub próbowałem). Zagraj jako zagrożenie, jeśli nie jest to coś, z czego możesz się wycofać lub zmienić zdanie. W takim przypadku indywidualni badacze mieliby trudności z wyjściem na jakiś inny arbitralny próg.

— przypuszcza

2

p

$p$

6

Moja osobista hipoteza jest taka, że 0,05 (lub 1 na 20) wiąże się z wartością at / z wynoszącą (bardzo blisko) 2. Używanie 2 jest fajne, ponieważ bardzo łatwo jest stwierdzić, czy twój wynik jest statystycznie istotny. Nie ma innych zbieżności okrągłych liczb.

— Jeremy Miles
źródło

7

Z = 1

$Z=1$

Z = 3

$Z=3$

9

1 / 3

$1/3$

1 / 20

$1/20$

1 / 400

$1/400$

1 / 16000

$1/16000$

z = 1, 2, 3, 4

$z=1,2,3,4$

1

:) Hmm ... dobra uwaga. Ale musisz ograniczyć się do tego, co chciałbyś zastosować jako odcięcie - 1/3 to trochę luźny, 1/400 to dotkliwy dotyk.

— Jeremy Miles

10

Właśnie o to mi chodzi, Jeremy: tradycja 5% i 1% opiera się, przynajmniej częściowo, na koncepcji ryzyka statystycznego („trochę luźności” lub „surowości dotyku”) i początkowo nie czerpać z dowolnej praktycznej zasady.

— whuber

1

Z = 1

$Z=1$

1 / π

$1/{\pi}$

6

Jedyny poprawny numer to .04284731

... co jest nonszalancką odpowiedzią, która ma oznaczać, że wybór 0,05 jest zasadniczo dowolny. Zazwyczaj po prostu zgłaszam wartość p, a nie wartość p, która jest większa lub mniejsza niż.

„Znaczenie” jest zmienną ciągłą i, moim zdaniem, dyskrecjonowanie jej często powoduje więcej szkody niż pożytku. Mam na myśli, że jeśli p = 0,13, masz więcej pewności niż jeśli p = 0,21 i mniej niż jeśli p = 0,003

— użytkownik_ogólny
źródło

Cóż, w czasach tabel ktoś był mniej więcej zmuszony do dyskrecji ... skoro tabele są używane w nauczaniu, to trwa dalej ...

— kjetil b halvorsen

@kjetilbhalvorsen dobrze, twórcy tabel wyraźnie popełnili błąd, nie wybierając 0,04284731 ze względu na swoje krytyczne wartości.

— generic_user

2

To obszar testowania hipotez, który zawsze mnie fascynował. Zwłaszcza dlatego, że pewnego dnia ktoś zdecydował się na dowolną liczbę, która dychotomizowała procedurę testową i od tego czasu ludzie rzadko ją kwestionują.

Pamiętam, że wykładowca powiedział nam, abyśmy nie wierzyli zbytnio w test Staigera i Stock zmiennych instrumentalnych (gdzie statystyka F powinna być powyżej 10 w regresji pierwszego etapu, aby uniknąć słabych problemów z instrumentem), ponieważ liczba 10 była całkowicie arbitralny wybór. Pamiętam, jak mówiłem: „Ale czy to nie to, co robimy przy regularnym testowaniu hipotez?

— EconStats
źródło

5

Czy to ma być odpowiedzią @EconStats? To wydaje się bardziej komentarzem. Pamiętaj, że CV nie ma służyć jako forum dyskusyjne. Czy zechciałbyś nadać odpowiedzi w / i temu postowi bardziej znaczący?

— gung

1

Przepraszam @ gung. Wydaje mi się, że miałem na myśli to, że pomimo niektórych dowodów dostarczonych przez innych użytkowników, nadal uważam, że najbardziej prawdopodobną odpowiedzią jest to, że mamy system numeracji oparty na liczbach dziesiętnych i nadal jest on używany do wymyślania dowolnych liczb do testowania hipotez np. wspomniany wcześniej test F Staigera i akcji.

— EconStats,

1

Jako oryginalny plakat tego pytania uważam, że zdecydowanie kwalifikuje się jako odpowiedź. Dzięki!

— Contango,

0

Dlaczego 1 i 5? Ponieważ czują się dobrze.

Jestem pewien, że istnieją badania dotyczące wartości emocjonalnej i zdolności poznawczych określonych liczb, ale możemy zrozumieć wybór 1 i 5 bez konieczności uciekania się do badań.

Ludzie, którzy stworzyli dzisiejsze statystyki, urodzili się, wychowali i żyją w dziesiętnym świecie. Oczywiście istnieją nie dziesiętne systemy liczenia, a liczenie do dwunastu za pomocą paliczków jest możliwe i zostało zrobione, ale nie jest to oczywiste w taki sam sposób jak używanie palców (które są dlatego nazywane „cyframi”, tak jak liczby ). I chociaż ty (i Fisher) możesz wiedzieć o systemach zliczania nie dziesiętnego, system dziesiętny jest i był dominującym systemem liczenia twojego (i świata Fishera) w ciągu ostatnich stu lat.

Ale dlaczego liczby pięć i jeden są wyjątkowe? Ponieważ oba są najbardziej istotnymi podziałami podstawowej dziesiątki: jeden palec, jedna ręka (lub: połowa).

Nie musisz nawet posuwać się tak daleko, aby pojąć ułamki, aby uzyskać od dziesięciu do jednego i pięciu. Ten jest po prostu tam, tak jak twój palec jest po prostu tam. A zmniejszenie o połowę czegoś jest operacją znacznie prostszą niż podzielenie go na jakąkolwiek inną proporcję. Cięcie czegokolwiek na dwie części nie wymaga myślenia, a dzielenie przez trzy lub cztery jest już dość skomplikowane.

Większość systemów walutowych ma monety i banknoty o wartościach takich jak 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Niektóre systemy walutowe nie mają 2, 20 i 200, ale prawie wszystkie mają te początkowe w 1 i 5. Jednocześnie większość systemów walutowych nie ma monety lub banknotu, który zaczyna się od 3, 4, 6, 7, 8 lub 9. Ciekawe, prawda? Ale dlaczego tak jest?

Ponieważ zawsze potrzebujesz dziesięciu z 1 lub dwóch z 5 (lub pięciu z 2), aby osiągnąć kolejne większe zamówienie. Obliczanie za pomocą pieniędzy jest bardzo proste: razy dziesięć lub dwa razy. Tylko dwa rodzaje operacji. Każda posiadana moneta stanowi połowę lub dziesiątą monety następnego rzędu. Liczby te mnożą się i sumują łatwo i dobrze.

Tak więc 1 i 5 były głęboko zakorzenione, od najwcześniejszego dzieciństwa, w Fishera i ktokolwiek inny wybrał poziomy istotności jako najprostszy, najprostszy, najbardziej podstawowy podział na 10. Każda inna liczba potrzebuje argumentu, podczas gdy te liczby są po prostu dostępne.

Przy braku obiektywnego sposobu obliczenia odpowiedniego poziomu istotności dla każdego indywidualnego zestawu danych, jeden i pięć po prostu czuje się dobrze.

„bez konieczności uciekania się do badań”. Chociaż myślę, że odpowiedź jest miła, to jednak mocno wpisuje się w obszar opinii. Dałoby to dużo wiarygodności i uczyniłoby odpowiedź bardziej wiarygodną, gdyby istniały źródła, które mogłyby to poprzeć.

— Momo