Co oznacza „naukowcy powstają w porównaniu ze znaczeniem statystycznym”? (Komentarz w naturze)


61

Tytuł komentarza w Nature Scientists przeciwko statystycznej istotności zaczyna się od:

Valentin Amrhein, Sander Greenland, Blake McShane i ponad 800 sygnatariuszy wzywają do zlikwidowania wysuwanych roszczeń i odrzucenia możliwie kluczowych efektów.

a później zawiera takie stwierdzenia jak:

Ponownie nie opowiadamy się za zakazem wartości P, przedziałów ufności ani innych miar statystycznych - tylko, że nie powinniśmy traktować ich kategorycznie. Obejmuje to dychotomizację jako statystycznie istotną lub nieistotną, a także kategoryzację opartą na innych miarach statystycznych, takich jak czynniki Bayesa.

Myślę, że mogę pojąć, że poniższy obraz nie pokazuje, że oba badania nie zgadzają się, ponieważ jedno „wyklucza” brak efektu, a drugie nie. Ale artykuł wydaje się wchodzić głębiej, niż potrafię zrozumieć.

Pod koniec wydaje się, że jest streszczenie w czterech punktach. Czy możliwe jest podsumowanie ich w jeszcze prostszy sposób dla tych z nas, którzy czytają statystyki , niż je piszą?

Mówiąc o przedziałach zgodności, pamiętaj o czterech rzeczach.

  • Po pierwsze, ponieważ przedział daje wartości najbardziej zgodne z danymi, biorąc pod uwagę założenia, nie oznacza to, że wartości poza nim są niezgodne; są po prostu mniej kompatybilne ...

  • Po drugie, nie wszystkie wartości w środku są jednakowo zgodne z danymi, biorąc pod uwagę założenia ...

  • Po trzecie, podobnie jak próg 0,05, z którego pochodzi, domyślny 95% używany do obliczania przedziałów jest sam w sobie arbitralną konwencją ...

  • I wreszcie najważniejsze: bądź pokorny: oceny zgodności zależą od poprawności założeń statystycznych użytych do obliczenia przedziału ...


Natura: naukowcy powstają przeciwko statystycznemu znaczeniu


13
Zasadniczo chcą wypełnić dokumenty badawcze jeszcze bardziej fałszywymi pozytywami!
David

12
Zobacz dyskusję na blogu Gelmana: statmodeling.stat.columbia.edu/2019/03/20/… . Oczywiście artykuł podnosi pewne ważne punkty, ale zobacz komentarze podniesione przez Ioannidisa przeciwko temu artykułowi (a także oddzielnie przeciwko aspektowi „petycji”), cytowane przez Gelmana.
ameba mówi Przywróć Monikę

3
To jednak nie jest nowa koncepcja. Metaanaliza trwa już od ponad 50 lat, a Cochrane od 25 lat wykonuje metaanalizy badań medycznych / medycznych (w których łatwiej jest ustandaryzować cele i wyniki).
Graham

4
Zasadniczo problemem jest próba zmniejszenia „niepewności”, która jest problemem wielowymiarowym, do pojedynczej liczby.
MaxW

4
Zasadniczo, jeśli ludzie stwierdzili „nie znaleziono dowodów na powiązanie między X i Y” zamiast „X i Y nie są powiązane” przy znalezieniu ten artykuł prawdopodobnie nie istniałby. p>α
Firebug

Odpowiedzi:


65

Pierwsze trzy punkty, o ile mogę stwierdzić, są odmianą jednego argumentu.

Naukowcy często traktują pomiary niepewności ( na przykład ) jako rozkłady prawdopodobieństwa, które wyglądają następująco:12±1

jednolity rozkład prawdopodobieństwa

Kiedy faktycznie, są one znacznie bardziej prawdopodobne, aby wyglądać jak ten : wprowadź opis zdjęcia tutaj

Jako były chemik mogę potwierdzić, że wielu naukowców nieposiadających wiedzy matematycznej (przede wszystkim niefizyczni chemicy i biolodzy) tak naprawdę nie rozumie, w jaki sposób powinna działać niepewność (lub błąd, jak to nazywają). Przypominają sobie czas w fizyce licencjackiej, w którym być może musieli ich użyć, być może nawet obliczając błąd złożony na podstawie kilku różnych pomiarów, ale tak naprawdę nigdy ich nie rozumieli . I też był winny tego, a zakłada się wszystkie pomiary miał przyjść w przedziału. Dopiero niedawno (i poza środowiskiem akademickim) dowiedziałem się, że pomiary błędów zwykle odnoszą się do pewnego standardowego odchylenia, a nie do absolutnego limitu.±

Aby rozbić numerowane punkty w artykule:

  1. Pomiary poza CI wciąż mają szansę się wydarzyć, ponieważ rzeczywiste (prawdopodobnie gaussowskie) prawdopodobieństwo jest tam niezerowe (lub gdziekolwiek w tym przypadku, chociaż stają się znikomo małe, gdy daleko się wydostaniesz). Jeśli wartości po rzeczywiście reprezentują jeden SD, to nadal istnieje 32% szansa, że ​​punkt danych wypadnie poza nimi.±

  2. Rozkład nie jest jednolity (z płaskim szczytem, ​​jak na pierwszym wykresie), jest pikowany. Bardziej prawdopodobne jest uzyskanie wartości pośrodku niż na krawędziach. To jak rzucanie wiązką kości, a nie pojedynczą kością.

  3. 95% jest arbitralnym punktem odcięcia i pokrywa się prawie dokładnie z dwoma odchyleniami standardowymi.

  4. Ten punkt jest raczej komentarzem na temat uczciwości akademickiej w ogóle. Uświadomiłem sobie, że podczas mojego doktoratu nauka nie jest jakąś abstrakcyjną siłą, jest to łączny wysiłek ludzi próbujących robić naukę. Są to ludzie, którzy próbują odkryć nowe rzeczy na temat wszechświata, ale jednocześnie starają się karmić swoje dzieci i utrzymać pracę, co niestety w dzisiejszych czasach oznacza, że gra się w jakąś formę publikacji lub śmierci . W rzeczywistości naukowcy polegają na odkryciach, które są zarówno prawdziwe, jak i interesujące , ponieważ nieciekawe wyniki nie prowadzą do publikacji.

Dowolne progi, takie jak często mogą być samonapędzające się, szczególnie wśród tych, którzy nie w pełni rozumieją statystyki i potrzebują jedynie wyniku pozytywnego / negatywnego na swoich wynikach. W związku z tym ludzie czasami żartobliwie mówią o „ponownym uruchomieniu testu, dopóki nie uzyskasz ”. To może być bardzo kuszące, szczególnie jeśli doktorat / grant / zatrudnienie opiera się na wyniku, aby te marginalne wyniki były poruszane, aż pożądane pojawi się w analizie.p<0.05p<0.05p=0.0498

Takie praktyki mogą być szkodliwe dla nauki jako całości, zwłaszcza jeśli są wykonywane szeroko, wszystko w pogoni za liczbą, która jest w oczach natury, bez znaczenia. Ta część w rzeczywistości zachęca naukowców do uczciwości w zakresie swoich danych i pracy, nawet jeśli ta uczciwość jest ze szkodą dla nich.


26
Gra +1 dla „... opublikuj lub zgiń. W rzeczywistości naukowcy polegają na odkryciach, które są zarówno prawdziwe, jak i interesujące, ponieważ nieciekawe wyniki nie skutkują publikacjami”. Pojawił się interesujący artykuł, który ukazał się wiele lat temu, który mówi o tym, jak to „publikowanie lub ginięcie” prowadzi do pogłębiania błędów / stronniczości w środowisku akademickim: Dlaczego większość opublikowanych wyników badań jest fałszywa (Ioannidis, 2005)
J. Taylor

4
Nie zgadzam się z „prawdziwą (prawdopodobnie Gaussowską) niepewnością ...”) - Gaussian to kolejne uproszczenie. Jest to nieco bardziej uzasadnione niż model twardych limitów dzięki Centralnemu Twierdzeniu o Granicach, ale rzeczywisty rozkład jest zasadniczo czymś innym.
lewo około

1
@leftaroundabout Rzeczywisty rozkład prawdopodobnie nadal jest inny, ale chyba, że ​​wartość jest fizycznie niemożliwa, prawdopodobieństwo jest nadal matematycznie zerowe.
gerrit

3
@leftaroundabout, mówiąc, że niepewność jest prawdopodobna, Gaussa nie jest z natury uproszczeniem. Opisuje wcześniejszy rozkład, który jest uzasadniony przez CLT jako najlepszy przed nieobecnością innych danych pomocniczych, ale wyrażając niepewność co do rozkładu, potwierdzenie, że rozkład może nie być Gaussowski, już istnieje.
Czy

7
@inisfree jesteś bardzo, bardzo w błędzie. Wiele dyscyplin naukowych (jak chemia i biologia, jak powiedziałem wcześniej) używa prawie zerowej matematyki, oprócz podstawowej arytmetyki. Poza tym są genialni naukowcy, którzy są prawie niepiśmienni z matematyki i poznałem kilku z nich.
Ingolifs

19

Znaczna część artykułu i liczby, którą podajesz, zawiera bardzo prosty punkt:

Brak dowodów na efekt nie oznacza, że ​​nie istnieje.

Na przykład,

„W naszym badaniu myszy, którym podano cyjanek, nie umarły ze statystycznie istotnie wyższymi wskaźnikami” nie jest dowodem na twierdzenie, że „cyjanek nie ma wpływu na śmierć myszy”.

Załóżmy, że podajemy dwóm myszom dawkę cyjanku, a jedna z nich umiera. W grupie kontrolnej dwóch myszy żadna nie umiera. Ponieważ wielkość próbki była tak mała, wynik ten nie jest statystycznie istotny ( ). Zatem ten eksperyment nie wykazuje statystycznie istotnego wpływu cyjanku na długość życia myszy. Czy powinniśmy dojść do wniosku, że cyjanek nie ma wpływu na myszy? Oczywiście, że nie.p>0.05

Ale to błąd, jak twierdzą autorzy, naukowcy rutynowo popełniają.

Na przykład na twojej figurze czerwona linia mogłaby powstać z badania na bardzo niewielu myszach, podczas gdy niebieska linia mogłaby powstać z dokładnie tego samego badania, ale na wielu myszach.

Autorzy sugerują, że zamiast używać wielkości efektu i wartości p, naukowcy zamiast tego opisują zakres możliwości, które są mniej lub bardziej zgodne z ich odkryciami. W naszym eksperymencie z dwiema myszami musielibyśmy napisać, że nasze odkrycia są zgodne z tym, że cyjanek jest bardzo trujący i że w ogóle nie jest trujący. W eksperymencie na 100 myszach możemy znaleźć przedział ufności wynoszący śmiertelności z oszacowaniem punktowym na[60%,70%]65%. Następnie powinniśmy napisać, że nasze wyniki byłyby najbardziej zgodne z założeniem, że ta dawka zabija 65% myszy, ale nasze wyniki byłyby również w pewnym stopniu kompatybilne z odsetkami tak niskimi jak 60 lub tak wysokimi jak 70, i że nasze wyniki byłyby mniej kompatybilne z prawdą poza tym zakresem. (Powinniśmy również opisać, jakie założenia statystyczne przyjmujemy, aby obliczyć te liczby).


4
Nie zgadzam się z ogólnym stwierdzeniem, że „brak dowodów nie jest dowodem braku”. Obliczenia mocy pozwalają określić prawdopodobieństwo uznania, że ​​wpływ określonego rozmiaru jest znaczący, biorąc pod uwagę konkretny rozmiar próbki. Duże rozmiary efektów wymagają mniej danych, aby uznać je za znacznie różniące się od zera, podczas gdy małe efekty wymagają większej wielkości próby. Jeśli twoje badanie jest odpowiednio zasilane i nadal nie widzisz znaczących efektów, możesz rozsądnie stwierdzić, że efekt nie istnieje. Jeśli masz wystarczającą ilość danych, nieistotność może rzeczywiście wskazywać na brak efektu.
Nuclear Wang

1
@NuclearWang Prawda, ale tylko wtedy, gdy analiza mocy zostanie przeprowadzona z wyprzedzeniem i tylko wtedy, gdy zostanie wykonana przy prawidłowych założeniach, a następnie poprawnych interpretacjach (tj. Twoja moc jest istotna tylko do wielkości przewidywanego rozmiaru efektu ; „80% moc ”nie oznacza, że ​​masz 80% prawdopodobieństwa prawidłowego wykrycia efektu zerowego ). Ponadto z mojego doświadczenia wynika, że ​​użycie „nieistotnego” oznaczającego „brak efektu” jest często stosowane w odniesieniu do wtórnych wyników lub rzadkich zdarzeń, do których i tak badanie (odpowiednio) nie ma mocy. Wreszcie, beta jest zazwyczaj >> alfa.
Bryan Krause

9
@NuclearWang, nie sądzę, aby ktokolwiek twierdził, że „brak dowodów NIGDY nie jest dowodem nieobecności”, myślę, że twierdzą, że nie należy tego automatycznie interpretować jako takiego i że jest to błąd, jaki popełniają ludzie.
usul

To prawie tak, jakby ludzie nie byli szkoleni w testach na równoważność lub coś w tym rodzaju.
Alexis

19

Spróbuję.

  1. Przedział ufności (który nazywają przedziałem zgodności) pokazuje wartości parametru, które są najbardziej zgodne z danymi. Ale to nie znaczy, że wartości poza przedziałem są absolutnie niezgodne z danymi.
  2. Wartości bliskie środkowi przedziału ufności (zgodności) są bardziej zgodne z danymi niż wartości bliskie końcom przedziału.
  3. 95% to tylko konwencja. Możesz obliczyć przedziały 90%, 99% lub dowolne%.
  4. Przedziały ufności / zgodności są pomocne tylko wtedy, gdy eksperyment został przeprowadzony prawidłowo, jeśli analiza została przeprowadzona zgodnie z ustalonym planem, a dane są zgodne z założeniem metod analizy. Jeśli źle przeanalizujesz złe dane, przedział zgodności nie jest znaczący ani pomocny.

10

Wielki XKCD zrobił tę kreskówkę jakiś czas temu, ilustrując problem. Jeśli wyniki z są w uproszczeniu traktowane jako dowód na hipotezę - i są to zbyt często - wówczas 1 na 20 tak udowodnionych hipotez faktycznie będzie fałszywy. Podobnie, jeśli zostanie uznane za obalenie hipotez, wówczas 1 na 20 prawdziwych hipotez zostanie błędnie odrzucony. Wartości P nie mówią, czy hipoteza jest prawdziwa czy fałszywa, lecz mówią, czy hipoteza jest prawdopodobnie prawdziwa czy fałszywa. Wydaje się, że wspomniany artykuł odwołuje się do nazbyt powszechnej naiwnej interpretacji.P>0.05P < 0,05P<0.05


8
(-1) Wartości P nie pokazują, czy hipoteza jest prawdopodobnie prawdziwa czy fałszywa. Potrzebujesz do tego wcześniejszej dystrybucji. Zobacz na przykład ten xkcd . Problematyczne machanie ręką, które prowadzi do tego zamieszania, polega na tym , że jeśli mamy podobne priorytety dla dużej liczby hipotez, wówczas wartość p będzie proporcjonalna do prawdopodobieństwa, że ​​jest to prawda lub fałsz. Ale zanim zobaczysz jakiekolwiek dane, niektóre hipotezy są znacznie bardziej prawdopodobne niż inne!
Cliff AB

3
Chociaż efekt ten jest czymś, czego nie należy lekceważyć, daleki jest od bycia istotnym punktem przywoływanego artykułu.
RM

6

tl; dr - Zasadniczo niemożliwe jest udowodnienie, że rzeczy nie są ze sobą powiązane; statystyki mogą być wykorzystane tylko do pokazania, kiedy rzeczy powiązane. Pomimo tego dobrze ugruntowanego faktu ludzie często błędnie interpretują brak znaczenia statystycznego, sugerując brak związku.


Dobra metoda szyfrowania powinna generować tekst zaszyfrowany, który, o ile atakujący może stwierdzić, nie wykazuje żadnego statystycznego związku z chronioną wiadomością. Ponieważ jeśli osoba atakująca może ustalić jakiś związek, może uzyskać informacje o twoich chronionych wiadomościach, po prostu patrząc na zaszyfrowane teksty - co jest Bad Thing TM .

Jednak tekst zaszyfrowany i odpowiadający mu tekst jawny w 100% określają się nawzajem. Więc nawet jeśli najlepsi matematycy na świecie nie mogą znaleźć żadnego znaczącego związku, bez względu na to, jak bardzo się starają, nadal oczywiście wiemy, że związek nie jest tylko obecny, ale że jest on całkowicie i całkowicie deterministyczny. Ten determinizm może istnieć nawet wtedy, gdy wiemy, że nie można znaleźć związku .

Mimo to wciąż mamy ludzi, którzy będą robić takie rzeczy jak:

  1. Wybierz związek, który chcą „ obalić ”.

  2. Przeanalizuj go, co nie jest wystarczające do wykrycia domniemanego związku.

  3. Zgłoś brak związku istotnego statystycznie.

  4. Przekręć to w brak związku.

Prowadzi to do wszelkiego rodzaju „ badań naukowych ”, które media (fałszywie) zgłaszają jako obalające istnienie jakiegoś związku.

Jeśli chcesz zaprojektować własne badanie na ten temat, możesz to zrobić na kilka sposobów:

  1. Leniwe badania:
    zdecydowanie najłatwiejszym sposobem jest po prostu bycie leniwym. To jest tak jak z tej liczby połączonej w pytaniu:
    .
    Możesz łatwo uzyskać to po prostu mając małe próbki, pozwalając na dużo hałasu i inne leniwe rzeczy. W rzeczywistości, jeśli jesteś tak leniwy, że nie chcesz zbierać żadnych danych, to jesteś już gotowe!'Non-significant' study(high P value)"

  2. Leniwa analiza: z
    jakiegoś głupiego powodu niektórzy uważają, że współczynnik korelacji Pearsona wynoszący oznacza „ brak korelacji ”. Co jest prawdą w bardzo ograniczonym sensie. Ale oto kilka przypadków do zaobserwowania: . Oznacza to, że może nie istnieć relacja „ liniowa ”, ale oczywiście może być bardziej złożona. I nie musi to być kompleks „ szyfrowania ” na poziomie, ale raczej „ jest to po prostu trochę zawijasowa linia ” lub „ istnieją dwie korelacje ” lub cokolwiek innego.0

  3. Leniwa odpowiedź:
    w duchu powyższego zamierzam się tutaj zatrzymać. Wiesz, bądź leniwy!

Ale poważnie, artykuł podsumowuje to dobrze w:

Wyjaśnijmy, co należy zatrzymać: nigdy nie powinniśmy wyciągać wniosku, że nie ma „żadnej różnicy” ani „żadnego powiązania” tylko dlatego, że wartość P jest większa niż wartość progowa, taka jak 0,05, lub równoważnie, ponieważ przedział ufności obejmuje zero.


+1, ponieważ to, co piszesz jest zarówno prawdą, jak i prowokuje do myślenia. Jednak, moim skromnym zdaniem, to może okazać się, że dwie wielkości są racjonalnie nieskorelowane przy pewnych założeniach. Najpierw musisz zejść z trasy, zakładając np. Pewien rozkład na ich temat, ale może to być oparte na prawach fizyki lub statystykach (np. Oczekuje się, że prędkość cząsteczek gazu w zbiorniku będzie gaussowska itp.)
ntg

3
@ntg Tak, trudno jest powiedzieć, jak sformułować niektóre z tych rzeczy, więc wiele z nich pominąłem. Mam na myśli, że ogólna prawda jest taka, że ​​nie możemy obalić istnienia jakiegoś związku, chociaż ogólnie możemy wykazać, że określony związek nie istnieje. Trochę tak, że nie możemy ustalić, że dwie serie danych są ze sobą niezwiązane, ale możemy ustalić, że nie wydaje się, aby były one wiarygodnie powiązane prostą funkcją liniową.
Nat

1
-1 „tl; dr- Zasadniczo niemożliwe jest udowodnienie, że rzeczy nie są ze sobą powiązane”: Testy równoważności dostarczają dowodów braku efektu w dowolnej wielkości efektu.
Alexis

2
@ Alexis Myślę, że źle rozumiesz testowanie równoważności; możesz użyć testu równoważności, aby udowodnić brak utrzymywania określonego związku, np. związek liniowy, ale nie dowodzić braku związku.
Nat

1
@Alexis Wnioskowanie statystyczne może dostarczyć tyle samo dowodów na brak efektu większego niż określony rozmiar efektu w kontekście jakiegoś modelu . Być może zakładasz, że model będzie zawsze znany?
Nat

4

Dla dydaktycznego wprowadzenia do problemu Alex Reinhart napisał książkę w pełni dostępną online i zredagował w No Starch Press (więcej treści): https://www.statisticsdonewrong.com

Wyjaśnia źródło problemu bez skomplikowanych obliczeń matematycznych i zawiera szczegółowe rozdziały z przykładami z symulowanego zestawu danych:

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

W drugim łączu przykład graficzny ilustruje problem wartości p. Wartość p jest często stosowana jako pojedynczy wskaźnik różnicy statystycznej między zestawem danych, ale sama w sobie nie jest wystarczająca.

Edytuj, aby uzyskać bardziej szczegółową odpowiedź:

W wielu przypadkach badania mają na celu odtworzenie dokładnego rodzaju danych, albo pomiarów fizycznych (np. Liczby cząstek w akceleratorze podczas konkretnego eksperymentu), albo wskaźników ilościowych (takich jak liczba pacjentów rozwijających określone objawy podczas testów narkotykowych). W obu przypadkach wiele czynników może zakłócać proces pomiaru, np. Błąd ludzki lub różnice w systemach (ludzie reagują inaczej na ten sam lek). To jest powód, dla którego eksperymenty są często przeprowadzane setki razy, jeśli to możliwe, a testy leków, najlepiej w kohortach tysięcy pacjentów.

Zbiór danych jest następnie redukowany do najprostszych wartości za pomocą statystyk: średnich, odchyleń standardowych i tak dalej. Problem z porównywaniem modeli za pomocą ich średniej polega na tym, że zmierzone wartości są jedynie wskaźnikami prawdziwych wartości, a także zmieniają się statystycznie w zależności od liczby i precyzji poszczególnych pomiarów. Mamy sposoby, aby dobrze zgadnąć, które środki prawdopodobnie będą takie same, a które nie, ale tylko z pewną pewnością. Zwykle próg mówi, że jeśli mamy mniej niż jedną z dwudziestu szans na błąd, mówiąc, że dwie wartości są różne, uważamy je za „statystycznie różne” (to znaczy ), w przeciwnym razie nie wyciągamy wniosków.P<0.05

Prowadzi to do dziwnych wniosków zilustrowanych w artykule Nature, w których dwie te same miary dają te same wartości średnie, ale wnioski badaczy różnią się ze względu na wielkość próbki. To i inne słowa ze słownictwa i nawyków statystycznych stają się coraz ważniejsze w nauce. Inną stroną problemu jest to, że ludzie zapominają, że używają narzędzi statystycznych i dochodzą do wniosku o efekt bez odpowiedniej weryfikacji mocy statystycznej swoich próbek.

Dla innej ilustracji, ostatnio nauki społeczne i przyrodnicze przechodzą prawdziwy kryzys replikacji ze względu na fakt, że wiele efektów było branych za pewnik przez osoby, które nie sprawdzały właściwej mocy statystycznej słynnych badań (podczas gdy inne fałszowały dane ale to kolejny problem).


3
Chociaż nie jest to tylko link, ta odpowiedź ma wszystkie istotne cechy „ odpowiedzi tylko na link ”. Aby poprawić tę odpowiedź, włącz kluczowe punkty do samej odpowiedzi. Idealnie byłoby, gdyby twoja odpowiedź była przydatna, nawet jeśli zawartość linków zniknie.
RM

2
O wartościach p i błędach stawki podstawowej (wspomnianych w linku) Veritasium opublikowało ten film wideo zwany pułapką bayesowską .
jjmontes

2
Przepraszam więc, postaram się poprawić i jak najszybciej opracować odpowiedź. Moim pomysłem było również dostarczenie użytecznego materiału dla ciekawskiego czytelnika.
G.Clavier

1
@ G.Clavier i samozwańczy statystyki początkujący i ciekawy czytelnik doceniają to!
uhoh

1
@ uhoh Cieszę się, że to czytam. :)
G.Clavier

4

Dla mnie najważniejsza była:

... [Wzywamy] autorów do omówienia oszacowania punktowego, nawet jeśli mają dużą wartość P lub szeroki przedział, a także do omówienia granic tego przedziału.

Innymi słowy: Połóż większy nacisk na omawianie szacunków (centrum i przedział ufności), a mniejszy nacisk na „testowanie hipotezy zerowej”.

Jak to działa w praktyce? Wiele badań sprowadza się do pomiaru wielkości efektów, na przykład „Zmierzyliśmy współczynnik ryzyka na poziomie 1,20, przy 95% CI w zakresie od 0,97 do 1,33”. To jest odpowiednie streszczenie badania. Możesz natychmiast zobaczyć najbardziej prawdopodobny rozmiar efektu i niepewność pomiaru. Korzystając z tego podsumowania, możesz szybko porównać to badanie z innymi podobnymi badaniami, a najlepiej połączyć wszystkie wyniki w średniej ważonej.

Niestety, takie badania często podsumowuje się jako „Nie stwierdziliśmy statystycznie istotnego wzrostu współczynnika ryzyka”. Jest to prawidłowy wniosek z powyższego badania. Nie jest to jednak odpowiednie podsumowanie badania, ponieważ nie można łatwo porównać badań przy użyciu tego rodzaju podsumowań. Nie wiesz, które badanie miało najdokładniejszy pomiar, i nie możesz zrozumieć, jakie mogą być wyniki meta-badań. I nie od razu zauważasz, kiedy badania twierdzą, że „nieznaczny wzrost współczynnika ryzyka” ma tak duże przedziały ufności, że możesz ukryć w nich słonia.


To zależy od twojej zerowej hipotezy. Na przykład odrzucenie dostarcza dowodów na brak efektu większego niż arbitralnie mała . H0:|θ|ΔΔ
Alexis

1
Tak, ale po co w ogóle dyskutować o takiej hipotezie? Możesz po prostu podać zmierzony rozmiar efektu a następnie omówić, jakie są najlepsze / najgorsze konsekwencje. Tak zwykle robi się to w fizyce, na przykład podczas pomiaru różnicy masy do ładunku między protonem i antyprotonem . Autorzy mogliby sformułować hipotezę zerową (być może, idąc za twoim przykładem, że różnica bezwzględna jest większa niż niektóre ) i przystąpili do jej testowania, ale taka dyskusja ma niewielką wartość dodaną. θ±δθΔ
Martin JH

3

Jest to „znaczące”, które statystyków , a nie tylko naukowcy, rosną w górę i sprzeciwu wobec wykorzystania luźnym znaczeniu „i” wartości. Najnowszy numer „ The American Statistician” poświęcony jest całkowicie tej sprawie. Zobacz zwłaszcza artykuł wstępny Wassermana, Schirma i Lazara. P


Dziękuję za link! To otwieracz do oczu; Nie zdawałem sobie sprawy, że tyle dyskusji i dyskusji na ten temat.
uhoh

2

Faktem jest, że z kilku powodów wartości p rzeczywiście stały się problemem.

Jednak pomimo swoich słabości mają ważne zalety, takie jak prostota i intuicyjna teoria. Dlatego chociaż ogólnie zgadzam się z komentarzem w naturze , wydaje mi się, że zamiast porzucić znaczenie statystyczne całkowicie, potrzebne jest bardziej wyważone rozwiązanie. Oto kilka opcji:

1. „Zmiana domyślnego progu wartości P dla istotności statystycznej z 0,05 na 0,005 w przypadku twierdzeń o nowych odkryciach”. Moim zdaniem Benjamin i wsp. Bardzo dobrze odnieśli się do najbardziej przekonujących argumentów przeciwko przyjęciu wyższego standardu dowodów.

2. Przyjęcie wartości p drugiej generacji . Wydaje się to być rozsądnym rozwiązaniem większości problemów wpływających na klasyczne wartości p . Jak mówią tutaj Blume i in. , Wartości p drugiej generacji mogą pomóc „poprawić dyscyplinę, odtwarzalność i przejrzystość analiz statystycznych”.

3. Przedefiniowanie wartości p jako „ilościowej miary pewności -„ wskaźnika ufności ”- że zaobserwowany związek lub twierdzenie jest prawdziwe.” Może to pomóc zmienić cel analizy - od osiągnięcia znaczenia do odpowiedniego oszacowania tego zaufania.

Co ważne, „wyniki, które nie osiągają progu istotności statystycznej lub „ pewności ” (cokolwiek to jest), mogą być nadal ważne i zasługują na publikację w wiodących czasopismach, jeśli odpowiadają na ważne pytania badawcze za pomocą rygorystycznych metod”.

Myślę, że to mogłoby pomóc złagodzić obsesję na punkcie wartości p przez wiodące czasopisma, co jest przyczyną niewłaściwego użycia wartości p .


Dziękuję za odpowiedź, to jest pomocne. Poświęcę trochę czasu na czytanie Blume i in. jeśli chodzi o wartości p drugiej generacji , wydaje się dość czytelny.
uhoh

1
@ uhoh, cieszę się, że moja odpowiedź jest pomocna na twoje pytanie.
Krantz

1

Jedną z rzeczy, o których nie wspomniano, jest to, że błąd lub znaczenie są szacunkami statystycznymi, a nie faktycznymi pomiarami fizycznymi: zależą one w dużej mierze od dostępnych danych i sposobu ich przetwarzania. Możesz podać dokładną wartość błędu i znaczenia tylko wtedy, gdy zmierzyłeś każde możliwe zdarzenie. Zazwyczaj tak nie jest, wręcz przeciwnie!

Dlatego każde oszacowanie błędu lub znaczenia, w tym przypadku dowolnej wartości P, jest z definicji niedokładne i nie należy ufać, że opisałoby badania podstawowe - nie mówiąc już o zjawiskach! - dokładnie. W rzeczywistości nie należy ufać, że przekaże cokolwiek na temat wyników BEZ wiedzy o tym, co jest reprezentowane, jak oszacowano błąd i co zostało zrobione w celu kontroli jakości danych. Na przykład jednym ze sposobów zmniejszenia szacowanego błędu jest usunięcie wartości odstających. Jeśli to usunięcie jest również wykonywane statystycznie, to skąd możesz wiedzieć, że wartości odstające były prawdziwymi błędami zamiast nieprawdopodobnych rzeczywistych pomiarów, które powinny zostać uwzględnione w błędzie? W jaki sposób zredukowany błąd może poprawić znaczenie wyników? Co z błędnymi pomiarami w pobliżu szacunków? one poprawić błąd i może wpływać na znaczenie statystyczne, ale może prowadzić do błędnych wniosków!

W tym przypadku wykonuję modelowanie fizyczne i sam stworzyłem modele, w których błąd 3 sigma jest całkowicie niefizyczny. Oznacza to, że statystycznie jest około jednego zdarzenia na tysiąc (no cóż ... częściej niż to, ale dygresję), co skutkowałoby całkowicie absurdalną wartością. Wielkość błędu 3 przedziałów w moim polu jest w przybliżeniu równoważna z najlepszym możliwym oszacowaniem 1 cm, który okazuje się od czasu do czasu metrem. Jest to jednak rzeczywiście wynik akceptowany, gdy podaje się statystyczny przedział +/- obliczony na podstawie fizycznych, empirycznych danych w mojej dziedzinie. Jasne, przestrzegane jest zawężenie przedziału niepewności, ale często wartość najlepszego oszacowania prawdopodobieństwa jest bardziej użytecznym wynikiem, nawet gdy nominalny przedział błędu byłby większy.

Na marginesie, byłem kiedyś osobiście odpowiedzialny za jedną z tysiąca wartości odstających. Byłem w trakcie kalibracji przyrządu, gdy wydarzyło się wydarzenie, które mieliśmy zmierzyć. Niestety, ten punkt danych byłby dokładnie jedną z tych 100-krotnych wartości odstających, więc w pewnym sensie się zdarzają i są uwzględnione w błędzie modelowania!


„Możesz podać dokładny pomiar, tylko jeśli dokonałeś pomiaru każdego możliwego zdarzenia”. Hmm Czyli dokładność jest beznadziejna? A także nieistotne? Rozwiń różnicę między dokładnością a błędem. Czy niedokładne szacunki są stronnicze lub obiektywne? Jeśli są bezstronni, to czy nie są trochę przydatni? „Na przykład jednym ze sposobów zmniejszenia błędu jest usunięcie wartości odstających”. Hmm To zmniejszy wariancję próbki, ale „błąd”? „… często wartość najlepszego oszacowania jest bardziej użytecznym wynikiem, nawet gdy przedział błędu nominalnego byłby większy”. Nie przeczę, że dobry wcześniejszy wynik jest lepszy niż zły eksperyment.
Peter Leopold

Zmodyfikowałem nieco tekst w oparciu o twój komentarz. Miałem na myśli to, że statystyczna miara błędu jest zawsze wartością szacunkową, chyba że masz wszystkie możliwe indywidualne testy, że tak powiem, dostępne. Zdarza się to rzadko, z wyjątkiem sytuacji, gdy np. Odpytuje określoną liczbę osób (nie dotyczy to próbek z większej grupy lub ogólnej populacji).
Geenimetsuri

1
Jestem praktykiem, który używa statystyk, a nie statystyk. Myślę, że podstawowym problemem związanym z wartościami p jest to, że wielu, którzy nie są zaznajomieni z tym, co oni, mylą je z istotnym znaczeniem. Dlatego zostałem poproszony o określenie, które nachylenia są ważne, przy użyciu wartości p niezależnie od tego, czy nachylenia są duże, czy nie. Podobnym problemem jest wykorzystywanie ich do określania względnego wpływu zmiennych (co jest dla mnie krytyczne, ale które w zaskakująco małym stopniu zwraca uwagę na literaturę regresji).
user54285
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.