Czy błędem jest określanie wyników jako „bardzo znaczących”?

Dlaczego statystycy zniechęcają nas do określania wyników jako „ bardzo znaczących”, gdy wartość jest znacznie poniżej konwencjonalnego poziomu wynoszącego ? $p$ $\alpha$ $0.05$

Czy naprawdę źle jest ufać wynikowi, który ma 99,9% szansy na to, że nie jest błędem typu I ( ) więcej niż wynik, który daje tę szansę tylko na 99% ( )? $p=0.001$ $p=0.01$

— z8080
źródło

Warto przeczytać tutaj odpowiedź @ gung . W skrócie: W przypadku decyzji „znacząca vs. nieistotna” lub „odrzuć hipotezę zerową vs. nie odrzucaj hipotezy zerowej” ma znaczenie tylko to, czy wartość

jest poniżej wartości

którą ustaliłeś przed badaniem (Neyman i Pearson) . Z drugiej strony, wartość

można traktować jako ciągłą miarę dowodów przeciwko hipotezie zerowej, która nie ma „granicy” (Fisher).

p

$p$

α

$\alpha$

p

$p$

— COOLSerdash

Wygląda na to, że masz poważne nieporozumienie na temat wartości p (wartości p nie są prawdopodobieństwem błędu), które, jeśli zostaną poprawione, mogą pomóc ci zrozumieć, dlaczego możesz usłyszeć pewne rzeczy od statystów.

— facet

Przyznaję, że czasami używam zwrotów typu „bardzo znaczący”. Gdzie indziej w raportach wiele początkowych wyników może wymagać korekty w celu wielokrotnego testowania, przy czym „wysoce znaczący” nabywa bardziej techniczne znaczenie „pozostaje znaczący nawet po odpowiedniej korekcie dla wielokrotnych porównań”. Nawet gdy wszyscy czytelnicy zgadzają się na zastosowanie odpowiedniego

(co jest rzadkością w analizach wykorzystywanych przez wielu interesariuszy), to, co jest „znaczące” lub nie, zależy od zestawu hipotez, które każdy czytelnik miał na myśli przed spojrzeniem na raport.

α

$\alpha$

— whuber

Nie wszyscy statystycy twierdzą, że to źle. Sam używam tego terminu (co prawda rzadkie) - np. W celu oznaczenia, że na tych danych wartość null zostałaby odrzucona przez osoby działające na znacznie niższych poziomach istotności niż ten, którego używałem, ale ważne jest, aby nie przypisywać temu większego znaczenia niż ma. Powiedziałbym po prostu, że należy interpretować znaczenie takiego wyrażenia ostrożnie - czasem całkiem sporo - a nie jest to szczególnie błędne . Niektóre punkty tutaj byłyby istotne.

— Glen_b

(ctd) ... dla porównania, myślę, że większym problemem są ludzie stosujący testy hipotez, którzy po prostu nie odpowiadają na ich interesujące pytania (co moim zdaniem ma miejsce bardzo często). Lepiej skoncentrować się na tej rażącej i ważnej kwestii, niż nadmiernie dogmatycznie myśleć o niewielkiej niewierności w sposobie wyrażania bardzo małej wartości p.

— Glen_b

Odpowiedzi:

Myślę, że nie ma nic złego w stwierdzeniu, że wyniki są „bardzo znaczące” (nawet jeśli tak, to jest trochę niechlujne).

Oznacza to, że gdybyś ustalił znacznie mniejszy poziom istotności , nadal oceniałbyś wyniki jako znaczące. Lub, równoważnie, jeśli niektórzy z twoich czytelników mają na myśli znacznie mniejsze , to oni $\alpha$ $\alpha$ wciąż mogą ocenić swoje wyniki za znaczące.

Zauważ, że poziom istotności jest w oku patrzącego, podczas gdy $\alpha$ $p$ wartość jest (z pewnymi zastrzeżeniami) właściwością danych.

Obserwując jest tak samo, jak obserwacji , chociaż zarówno można nazwać „znaczące” według standardowej konwencji, w danej dziedzinie ( ). Mała wartość oznacza mocniejsze dowody przeciw zerowej wartości (dla tych, którzy lubią schemat Fishera testowania hipotez); oznacza to, że przedział ufności wokół wielkości efektu wyklucza wartość zerową z większym marginesem (dla tych, którzy wolą CI od wartości ); oznacza to, że prawdopodobieństwo zerowe z tyłu będzie mniejsze (dla Bayesianów z pewnym wcześniejszym); wszystko to jest równoważne i oznacza po prostu, że ustalenia są bardziej przekonujące $p=10^{-10}$ $p=0.04$ $\alpha=0.05$ $p$ $p$ . Zobacz Czy mniejsze wartości p są bardziej przekonujące? po więcej dyskusji.

Termin „bardzo znaczący” nie jest precyzyjny i nie musi być. Jest to subiektywna ocena eksperta, podobna do obserwowania zaskakująco dużego efektu i nazywania go „ogromnym” (a może po prostu „bardzo dużym”). Nie ma nic złego w stosowaniu jakościowych, subiektywnych opisów danych, nawet w piśmie naukowym; pod warunkiem, że przedstawiona zostanie również obiektywna analiza ilościowa.

Zobacz także kilka doskonałych komentarzy powyżej, +1 do @whuber, @Glen_b i @COOLSerdash.

— ameba mówi Przywróć Monikę
źródło

Zgoda. Wartość

jest wskaźnikiem ilościowym; stąd takie rozmowy, choć nieprecyzyjne poza jakimś kontekstem, nie są ipso facto nieważne, podobnie jak powiedzenie „Bill jest wysoki” i „Fred jest naprawdę wysoki” to nieprawidłowe użycie języka angielskiego. Powinniśmy chcieć zobaczyć także liczby i ich kontekst itp. Itd. Nic nie powstrzymuje tych, którzy chcą lub muszą podejmować ostre decyzje przy

lub cokolwiek, robiąc dokładnie tak, jak chcą, ale ich preferencje nie rządzą to.

P

$P$

P < 0.05

$P < 0.05$

— Nick Cox

To wcale nie jest niechlujne. Jest dobrze udokumentowany jako posiadający formalną definicję.

— Owl

To jest częste pytanie.

Podobne pytanie może brzmieć „Dlaczego p <= 0,05 uważa się za znaczący?” ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Michael-Mayer podał jedną część odpowiedzi: znaczenie jest tylko jedną częścią odpowiedzi. Przy wystarczającej ilości danych zwykle niektóre parametry będą wyświetlane jako „znaczące” (patrz korekta Bonferroniego). Testy wielokrotne to specyficzny problem w genetyce, w której duże badania szukające znaczenia są powszechne i często wymagane są wartości p < ^10–8 ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

Jednym z problemów wielu analiz jest to, że były one oportunistyczne i nie były wcześniej zaplanowane (tj. „Jeśli wystarczająco torturujesz dane, natura zawsze się przyzna”. - Ronald Coase).

Zasadniczo, jeśli analiza jest wstępnie zaplanowana (z korektą z powtarzaną analizą dla mocy statystycznej), można ją uznać za znaczącą. Często wielokrotne testowanie przez wiele osób lub grup jest najlepszym sposobem na potwierdzenie, że coś działa (lub nie). Powtarzanie wyników jest najczęściej właściwym testem na znaczenie.

— Bill Denney
źródło

Test jest narzędziem do podjęcia czarno-białej decyzji, tj. Próbuje odpowiedzieć na pytanie tak / nie, na przykład „czy istnieje prawdziwy efekt leczenia?”. Często, zwłaszcza jeśli zestaw danych jest duży, takie pytanie jest marnowaniem zasobów. Po co zadawać binarne pytanie, czy można uzyskać odpowiedź na pytanie ilościowe, takie jak „jak duży jest prawdziwy efekt leczenia?”. który pośrednio odpowiada również na pytanie tak / nie? Zamiast więc z dużą pewnością odpowiedzieć na nieinformacyjne pytanie „tak / nie”, często zalecamy stosowanie przedziałów ufności, które zawierają znacznie więcej informacji.

— Michael M.
źródło

+1 Chociaż możesz być bardziej precyzyjny w odpowiedzi na pytanie PO (nie jest to takie oczywiste).

@Matthew: W pełni się zgadzam.

— Michael M

Dzięki Michael. Ale wydaje mi się, że przedziały ufności (które dają odpowiedź w „ciągłej skali”) odnoszą się do wielkości efektu, prawda? Mimo to, czy nie ma również potrzeby odpowiedzi binarnej w celu uzupełnienia odpowiedzi ciągłej, tj. Czy ten efekt (którego wielkość jest opisany przez elementy CI) odpowiada uzgodnionemu poziomowi α? A może możesz nawet podać CI dla samej wartości p?

— z8080

(A) „Rozmiar efektu” zwykle odnosi się do znormalizowanej wersji efektu leczenia, a zatem jest trudniejszy do interpretacji niż sam efekt. (B) CI dla wartości p są czasem dodawane dla symulowanych wartości p, aby wyrazić niepewność symulacji. (C) Jeśli twój poziom wynosi 0,05, to w prawie każdej sytuacji testowej decyzję w sprawie czerni / bieli można uzyskać, patrząc na odpowiednie 95% ci.

— Michael M

(cd.) Twoje pytanie jest w jakiś sposób powiązane z następującym pytaniem: Czy bardziej użyteczne jest stwierdzenie, że nawet 99,9999% ci jest niezgodne z wartością zerową lub że nawet dolna granica 95% ci dla prawdziwego efektu jest bardzo obiecująca?

— Michael M