Dlaczego „statystycznie znaczący” nie wystarczy?


46

Zakończyłem analizę danych i uzyskałem „statystycznie znaczące wyniki”, co jest zgodne z moją hipotezą. Jednak student statystyki powiedział mi, że jest to przedwczesny wniosek. Dlaczego? Czy w moim raporcie jest coś jeszcze?


4
Wiele zależy od tego, co rozumiesz przez „uzyskanie statystycznie istotnych wyników zgodnych z hipotezą”. Jeśli twoja hipoteza jest taka, że ​​wiatr jest wytwarzany przez drzewa, a twój eksperyment pokazuje, że w 100% obserwacji, gdy drzewa poruszały gałęziami, był wiatr, okazało się, że jest to statystycznie znaczące i voila twój wniosek został udowodniony. Co oczywiście jest złe. Może to być jeden z tych przypadków.
sashkello

1
Naprawdę potrzebne byłoby dalsze badanie, aby bezpiecznie z wiarygodnością zadeklarować „znaczące odkrycie” - przy użyciu dobrze zaprojektowanego zbioru danych, tego samego modelu i tego samego testu hipotez. Musisz także upewnić się, że twój obecny zestaw danych reprezentuje „ogólną populację”, o której wysuwasz wniosek, z istotnym odkryciem (jest to kluczowy problem dla wnioskowania z „dużych zbiorów danych”)
prawdopodobieństwo prawdopodobieństwa

1
Z pewnością odpowiedź jest tak prosta, jak „korelacja nie jest przyczyną”?
Ułamek

1
Oto moja ulubiona : ludzie, którzy jedzą więcej ryżu, rodzą więcej dzieci. Sprawdzając populację całego świata, uzyskasz statystycznie znaczące wyniki ...
Karoly Horvath,

4
Świetne odpowiedzi, ale jestem zaskoczony, że nikt nie zasugerował oczywistego rozwiązania: Zapytaj go / ją. Ilekroć ktoś mówi ci, że mylisz się co do swojej pracy lub czegoś, na czym ci zależy, po prostu zapytaj. Mówienie komuś, że się myli, bo X, Y i Z są fajne - to okazja do nauki. Ale samo powiedzenie komuś, że się myli i odskakiwanie, to chuj.
Sylverdrag,

Odpowiedzi:


53

Testowanie hipotez a szacowanie parametrów

Zazwyczaj hipotezy są sformułowane w sposób binarny. Odłożę hipotezy kierunkowe na bok, ponieważ nie zmieniają one zbytnio problemu. W psychologii często mówi się o hipotezach takich jak: różnica między średnimi grupowymi jest równa zeru; korelacja jest równa zeru; współczynnik regresji wynosi lub nie jest zero; kwadrat r jest lub nie jest równy zero. We wszystkich tych przypadkach istnieje zerowa hipoteza braku efektu i alternatywna hipoteza efektu.

To binarne myślenie na ogół nie jest tym, co najbardziej nas interesuje. Gdy pomyślisz o swoim pytaniu badawczym, prawie zawsze okaże się, że faktycznie jesteś zainteresowany oszacowaniem parametrów. Interesuje Cię rzeczywista różnica między średnimi grupowymi lub wielkość korelacji, wielkość współczynnika regresji lub wyjaśniona wielkość wariancji.

Oczywiście, gdy otrzymamy próbkę danych, oszacowanie próbki parametru nie jest takie samo jak parametru populacji. Potrzebujemy więc sposobu na oszacowanie naszej niepewności co do wartości parametru. Z punktu widzenia częstokroć przedziały ufności zapewniają sposób działania, chociaż purystowie bayesowscy mogą argumentować, że nie pozwalają na ścisłe wyciąganie wniosków. Z perspektywy bayesowskiej wiarygodne odstępy w gęstości tylnej stanowią bardziej bezpośredni sposób oceny niepewności co do wartości parametru populacji.

Parametry / rozmiary efektów

Odejście od binarnego podejścia do testowania hipotez zmusza do ciągłego myślenia. Na przykład, jaka różnica wielkości w grupie byłaby teoretycznie interesująca? Jak odwzorowałbyś różnicę między środkami grupy na subiektywny język lub praktyczne implikacje? Standaryzowane miary efektu wraz z normami kontekstowymi są jednym ze sposobów budowania języka do kwantyfikacji znaczenia różnych wartości parametrów. Takie miary są często nazywane „wielkościami efektów” (np. D, r, itd. Cohena ). Jednak całkowicie uzasadnione i często preferowane jest mówienie o znaczeniu efektu przy użyciu niestandardowych miar (np. Różnica w grupie oznacza znaczące zmienne niestandardowe, takie jak poziom dochodów, oczekiwana długość życia itp.).R2

W psychologii (i innych dziedzinach) istnieje ogromna literatura krytykująca koncentrację na wartościach p, testowaniu znaczenia hipotezy zerowej i tak dalej (patrz to wyszukiwanie Google Scholar ). W literaturze tej często zaleca się zgłaszanie wielkości efektów z przedziałami ufności jako rozdzielczości (np. Grupa zadaniowa APA Wilkinsona, 1999).

Kroki odchodzenia od binarnego testowania hipotez

Jeśli zastanawiasz się nad przyjęciem tego myślenia, myślę, że możesz zastosować coraz bardziej wyrafinowane metody:

  • Podejście 1a. Zgłoś oszacowanie punktowe efektu próbki (np. Średnie różnice w grupie) zarówno w kategoriach surowych, jak i standardowych. Kiedy raportujesz swoje wyniki, dyskutuj, co taka wielkość oznaczałoby dla teorii i praktyki.
  • Podejście 1b. Dodaj do 1a, przynajmniej na bardzo podstawowym poziomie, pewne poczucie niepewności wokół oszacowania parametru na podstawie wielkości próby.
  • Podejście 2. Podaj także przedziały ufności dotyczące wielkości efektów i uwzględnij tę niepewność w swoim myśleniu na temat prawdopodobnych wartości parametru będącego przedmiotem zainteresowania.
  • Podejście 3. Zgłoś wiarygodne przedziały bayesowskie i zbadaj konsekwencje różnych założeń dla tego wiarygodnego przedziału, takie jak wybór wcześniejszego, proces generowania danych sugerowany przez twój model i tak dalej.

Wśród wielu możliwych referencji zobaczysz, jak Andrew Gelman dużo mówi o tych problemach na swoim blogu iw swoich badaniach.

Bibliografia

  • Nickerson, RS (2000). Testowanie znaczenia hipotezy zerowej: przegląd starej i ciągłej kontrowersji. Metody psychologiczne, 5 (2), 241.
  • Wilkinson, L. (1999). Metody statystyczne w czasopismach psychologicznych: wytyczne i objaśnienia. Amerykański psycholog, 54 (8), 594. PDF

12
W nawiązaniu do komentarza Jeromy'ego mogę polecić przeczytanie eseju Ziliaca i McCloskeya na temat kultu o znaczeniu statystycznym. Nie są to najbardziej oszałamiające statystyki, ale zapewniają przemyślaną i zabawną dyskusję na temat tego, dlaczego wielkości efektów, znaczenie praktyczne i funkcje utraty są tak ważne. deirdremccloskey.com/docs/jsm.pdf
Jim

Myślę, że czasem p powinno być ustawione poniżej 0,05. Dziękuję wszystkim: Gung, Jeromy i Jim
Jim Von,

1
O Ziliak [NB] i McCloskey: Jeśli jesteś zajęty, najpierw przeczytaj phil.vt.edu/dmayo/personal_website/… . Jeśli nie jesteś zajęty, najpierw przeczytaj to.
Nick Cox,

Nie ma za co, @JimVon. FWIW, czasami myślę, że p powinno być ustawione na wartość wyższą niż .05. To po prostu zależy.
gung - Przywróć Monikę

1
Cieszę się, że doktor Gelman został tu nazwany. Najwyraźniej nawet nie lubi raportować wartości p, nie mówiąc już o stosowaniu ich do poważnego wnioskowania. Jest również dobrym argumentem za standaryzacją wszystkich zmiennych.
shadowtalker,

26

Wystarczy dodać do istniejących odpowiedzi (które, nawiasem mówiąc, są świetne). Należy pamiętać, że istotność statystyczna jest funkcją wielkości próby .

Gdy otrzymujesz coraz więcej danych, możesz znaleźć statystycznie istotne różnice, gdziekolwiek spojrzysz. Gdy ilość danych jest ogromna, nawet najmniejsze efekty mogą prowadzić do znaczenia statystycznego. Nie oznacza to, że efekty są znaczące w praktyczny sposób.

Podczas testowania różnic, same wartości nie są wystarczające, ponieważ wymagana wielkość efektu do uzyskania statystycznie istotnego wyniku zmniejsza się wraz ze wzrostem wielkości próby . W praktyce rzeczywiste pytanie dotyczy zazwyczaj tego, czy występuje efekt danego minimalnego rozmiaru (co ma znaczenie). Gdy próbki stają się bardzo duże, wartości stają się prawie bez znaczenia w odpowiedzi na rzeczywiste pytanie.ppp


To jest punkt, którego dotyczy mój slajd 13 :)
Stéphane Laurent,

6
+1 za to. Ludzie, którzy nie zdają sobie sprawy z znaczenia, jakie ma funkcja wielkości próbki, doprowadzają mnie do szału.
Fomite,

12

Jeśli istniały uzasadnione podstawy do podejrzeń, że twoja hipoteza może być prawdziwa przed rozpoczęciem badania; i przeprowadziłeś dobre badanie (np. nie spowodowałeś żadnych problemów); a twoje wyniki były zgodne z twoją hipotezą i istotne statystycznie; to myślę, że wszystko w porządku.

Jednak nie powinieneś myśleć, że znaczenie jest najważniejsze w twoich wynikach. Po pierwsze, powinieneś także spojrzeć na rozmiar efektu (patrz moja odpowiedź tutaj: Rozmiar efektu jako hipoteza do testowania istotności ). Możesz także trochę zbadać swoje dane i sprawdzić, czy możesz znaleźć jakieś potencjalnie interesujące niespodzianki, które mogą być warte dalszych działań.


Masz na myśli, że hipoteza powinna być rozsądna? I jak ocenić, czy moja hipoteza doprowadzi do bezsensownej analizy danych? Post-hoc powinny ujawnić „potencjalnie interesujące niespodzianki”?
Jim Von

Mam na myśli to, że prawdopodobnie istniał jakiś uzasadniony powód, aby przeprowadzić badanie na 1. miejscu. Obecna wiedza teoretyczna i / lub ostatnie badania sugerują, że twoja hipoteza może być prawdziwa. Twoja hipoteza prawdopodobnie nie doprowadzi do „bezsensownej analizy danych”, chyba że jest niespójna. Potencjalnie interesujące niespodzianki / funkcje danych można bardzo dobrze odkryć post-hoc; fakt, że są niespodziankami, oznacza, że ​​nie wiedziałeś, że wystąpią one podczas planowania badania. Problem „post-hoc” polega na tym, czy uwierzyć w niespodzianki - muszą one zostać potwierdzone w przyszłych badaniach.
Gung - Przywróć Monikę

7

Przed zgłoszeniem tego i tego i tego i tego, zacznij od sformułowania, czego chcesz się nauczyć od danych eksperymentalnych. Głównym problemem w przypadku zwykłych testów hipotez (testów, których uczymy się w szkole ...) nie jest binarność: głównym problemem jest to, że są to testy hipotez, które nie są hipotezami interesującymi. Zobacz slajd 13 tutaj (pobierz pdf, aby poznać animacje). Jeśli chodzi o rozmiary efektów, nie ma ogólnej definicji tego pojęcia . Szczerze mówiąc, nie zalecałbym używania tego w przypadku statystycznych ekspertów niebędących ekspertami, są to techniczne, a nie naturalne mierniki „efektu”. Twoja hipoteza zainteresowania powinna być sformułowana w sposób zrozumiały dla laików.


1
Jeden mały dodatek - hipoteza zerowa powinna w rzeczywistości oznaczać coś poza kontekstem bieżącej analizy danych dla standardowego HT do zastosowania. Nie należy go „wymyślać”, abyś miał coś do odrzucenia na korzyść swojej teorii / odkrycia.
probabilislogiczny

2

Jestem daleki od eksperta w dziedzinie statystyki, ale jedną z rzeczy, które podkreślono w kursach statystycznych, które do tej pory zrobiłem, jest kwestia „praktycznego znaczenia”. Wierzę, że odnosi się to do tego, o czym mówią Jeromy i gung, odnosząc się do „wielkości efektu”.

Mieliśmy przykład w klasie 12-tygodniowej diety, która miała statystycznie istotne wyniki odchudzania, ale 95% przedział ufności wykazał średnią utratę masy między 0,2 a 1,2 kg (OK, dane prawdopodobnie zostały sporządzone, ale ilustruje to punkt) . Chociaż „statystycznie istotnie” ”różni się od zera, czy utrata masy ciała o 200 gramów w ciągu 12 tygodni jest„ praktycznie znaczącym ”wynikiem dla osoby z nadwagą, która stara się odzyskać zdrowie?


To jest punkt po moim slajdzie 13 :)
Stéphane Laurent

2
Jest to również przykład testowania „złej” hipotezy zerowej. To nie jest konkluzja, którą jesteś zainteresowany. Lepszym testem hipotez byłoby to, że utrata masy ciała jest mniejsza niż 5 kg vs. większa niż 5 kg.
probabilislogiczny

1

Niemożliwe jest udzielenie dokładnej odpowiedzi bez znajomości dalszych szczegółów badania i krytyki danej osoby. Ale jest jedna możliwość: jeśli przeprowadziłeś wiele testów i zdecydowałeś się skupić na tym, który pojawił się p<0.05i zignorować inne, to „znaczenie” zostało osłabione przez fakt, że skupiłeś na nim uwagę. Jako intuicyjna pompa do tego, pamiętaj, że p=0.05oznacza to, że „ten wynik byłby przypadkowy (tylko) 5% czasu, nawet jeśli hipoteza zerowa jest prawdziwa”. Im więcej testów wykonasz, tym bardziej prawdopodobne jest, że przynajmniej jeden z nich będzie przypadkiem „znaczący”, nawet jeśli nie będzie żadnego efektu. Zobacz http://en.wikipedia.org/wiki/Multiple_comparisons i http://en.wikipedia.org/wiki/Post-hoc_analysis


0

Proponuję przeczytać następujące informacje:

Anderson, DR, Burnham, KP, Thompson, WL, 2000. Testowanie hipotezy zerowej: problemy, rozpowszechnienie i alternatywa. J. Wildl. Zarządzać. 64, 912–923. Gigerenzer, G., 2004. Bezmyślne statystyki. Journal of Socio-Economics 33, 587-606. Johnson, DH, 1999. Nieistotność statystycznego testowania istotności. The Journal of Wildlife Management 63, 763-772.

Hipotezy zerowe są rzadko interesujące w tym sensie, że z każdego eksperymentu lub zestawu obserwacji istnieją dwa wyniki: prawidłowe odrzucenie wartości zerowej lub popełnienie błędu typu II. Rozmiar efektu jest tym, co prawdopodobnie interesuje Cię w określeniu, a po zakończeniu powinieneś stworzyć przedziały ufności dla tego rozmiaru efektu.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.