Zakończyłem analizę danych i uzyskałem „statystycznie znaczące wyniki”, co jest zgodne z moją hipotezą. Jednak student statystyki powiedział mi, że jest to przedwczesny wniosek. Dlaczego? Czy w moim raporcie jest coś jeszcze?
Zakończyłem analizę danych i uzyskałem „statystycznie znaczące wyniki”, co jest zgodne z moją hipotezą. Jednak student statystyki powiedział mi, że jest to przedwczesny wniosek. Dlaczego? Czy w moim raporcie jest coś jeszcze?
Odpowiedzi:
Zazwyczaj hipotezy są sformułowane w sposób binarny. Odłożę hipotezy kierunkowe na bok, ponieważ nie zmieniają one zbytnio problemu. W psychologii często mówi się o hipotezach takich jak: różnica między średnimi grupowymi jest równa zeru; korelacja jest równa zeru; współczynnik regresji wynosi lub nie jest zero; kwadrat r jest lub nie jest równy zero. We wszystkich tych przypadkach istnieje zerowa hipoteza braku efektu i alternatywna hipoteza efektu.
To binarne myślenie na ogół nie jest tym, co najbardziej nas interesuje. Gdy pomyślisz o swoim pytaniu badawczym, prawie zawsze okaże się, że faktycznie jesteś zainteresowany oszacowaniem parametrów. Interesuje Cię rzeczywista różnica między średnimi grupowymi lub wielkość korelacji, wielkość współczynnika regresji lub wyjaśniona wielkość wariancji.
Oczywiście, gdy otrzymamy próbkę danych, oszacowanie próbki parametru nie jest takie samo jak parametru populacji. Potrzebujemy więc sposobu na oszacowanie naszej niepewności co do wartości parametru. Z punktu widzenia częstokroć przedziały ufności zapewniają sposób działania, chociaż purystowie bayesowscy mogą argumentować, że nie pozwalają na ścisłe wyciąganie wniosków. Z perspektywy bayesowskiej wiarygodne odstępy w gęstości tylnej stanowią bardziej bezpośredni sposób oceny niepewności co do wartości parametru populacji.
Odejście od binarnego podejścia do testowania hipotez zmusza do ciągłego myślenia. Na przykład, jaka różnica wielkości w grupie byłaby teoretycznie interesująca? Jak odwzorowałbyś różnicę między środkami grupy na subiektywny język lub praktyczne implikacje? Standaryzowane miary efektu wraz z normami kontekstowymi są jednym ze sposobów budowania języka do kwantyfikacji znaczenia różnych wartości parametrów. Takie miary są często nazywane „wielkościami efektów” (np. D, r, itd. Cohena ). Jednak całkowicie uzasadnione i często preferowane jest mówienie o znaczeniu efektu przy użyciu niestandardowych miar (np. Różnica w grupie oznacza znaczące zmienne niestandardowe, takie jak poziom dochodów, oczekiwana długość życia itp.).
W psychologii (i innych dziedzinach) istnieje ogromna literatura krytykująca koncentrację na wartościach p, testowaniu znaczenia hipotezy zerowej i tak dalej (patrz to wyszukiwanie Google Scholar ). W literaturze tej często zaleca się zgłaszanie wielkości efektów z przedziałami ufności jako rozdzielczości (np. Grupa zadaniowa APA Wilkinsona, 1999).
Jeśli zastanawiasz się nad przyjęciem tego myślenia, myślę, że możesz zastosować coraz bardziej wyrafinowane metody:
Wśród wielu możliwych referencji zobaczysz, jak Andrew Gelman dużo mówi o tych problemach na swoim blogu iw swoich badaniach.
Wystarczy dodać do istniejących odpowiedzi (które, nawiasem mówiąc, są świetne). Należy pamiętać, że istotność statystyczna jest funkcją wielkości próby .
Gdy otrzymujesz coraz więcej danych, możesz znaleźć statystycznie istotne różnice, gdziekolwiek spojrzysz. Gdy ilość danych jest ogromna, nawet najmniejsze efekty mogą prowadzić do znaczenia statystycznego. Nie oznacza to, że efekty są znaczące w praktyczny sposób.
Podczas testowania różnic, same wartości nie są wystarczające, ponieważ wymagana wielkość efektu do uzyskania statystycznie istotnego wyniku zmniejsza się wraz ze wzrostem wielkości próby . W praktyce rzeczywiste pytanie dotyczy zazwyczaj tego, czy występuje efekt danego minimalnego rozmiaru (co ma znaczenie). Gdy próbki stają się bardzo duże, wartości stają się prawie bez znaczenia w odpowiedzi na rzeczywiste pytanie.p
Jeśli istniały uzasadnione podstawy do podejrzeń, że twoja hipoteza może być prawdziwa przed rozpoczęciem badania; i przeprowadziłeś dobre badanie (np. nie spowodowałeś żadnych problemów); a twoje wyniki były zgodne z twoją hipotezą i istotne statystycznie; to myślę, że wszystko w porządku.
Jednak nie powinieneś myśleć, że znaczenie jest najważniejsze w twoich wynikach. Po pierwsze, powinieneś także spojrzeć na rozmiar efektu (patrz moja odpowiedź tutaj: Rozmiar efektu jako hipoteza do testowania istotności ). Możesz także trochę zbadać swoje dane i sprawdzić, czy możesz znaleźć jakieś potencjalnie interesujące niespodzianki, które mogą być warte dalszych działań.
Przed zgłoszeniem tego i tego i tego i tego, zacznij od sformułowania, czego chcesz się nauczyć od danych eksperymentalnych. Głównym problemem w przypadku zwykłych testów hipotez (testów, których uczymy się w szkole ...) nie jest binarność: głównym problemem jest to, że są to testy hipotez, które nie są hipotezami interesującymi. Zobacz slajd 13 tutaj (pobierz pdf, aby poznać animacje). Jeśli chodzi o rozmiary efektów, nie ma ogólnej definicji tego pojęcia . Szczerze mówiąc, nie zalecałbym używania tego w przypadku statystycznych ekspertów niebędących ekspertami, są to techniczne, a nie naturalne mierniki „efektu”. Twoja hipoteza zainteresowania powinna być sformułowana w sposób zrozumiały dla laików.
Jestem daleki od eksperta w dziedzinie statystyki, ale jedną z rzeczy, które podkreślono w kursach statystycznych, które do tej pory zrobiłem, jest kwestia „praktycznego znaczenia”. Wierzę, że odnosi się to do tego, o czym mówią Jeromy i gung, odnosząc się do „wielkości efektu”.
Mieliśmy przykład w klasie 12-tygodniowej diety, która miała statystycznie istotne wyniki odchudzania, ale 95% przedział ufności wykazał średnią utratę masy między 0,2 a 1,2 kg (OK, dane prawdopodobnie zostały sporządzone, ale ilustruje to punkt) . Chociaż „statystycznie istotnie” ”różni się od zera, czy utrata masy ciała o 200 gramów w ciągu 12 tygodni jest„ praktycznie znaczącym ”wynikiem dla osoby z nadwagą, która stara się odzyskać zdrowie?
Niemożliwe jest udzielenie dokładnej odpowiedzi bez znajomości dalszych szczegółów badania i krytyki danej osoby. Ale jest jedna możliwość: jeśli przeprowadziłeś wiele testów i zdecydowałeś się skupić na tym, który pojawił się p<0.05
i zignorować inne, to „znaczenie” zostało osłabione przez fakt, że skupiłeś na nim uwagę. Jako intuicyjna pompa do tego, pamiętaj, że p=0.05
oznacza to, że „ten wynik byłby przypadkowy (tylko) 5% czasu, nawet jeśli hipoteza zerowa jest prawdziwa”. Im więcej testów wykonasz, tym bardziej prawdopodobne jest, że przynajmniej jeden z nich będzie przypadkiem „znaczący”, nawet jeśli nie będzie żadnego efektu. Zobacz http://en.wikipedia.org/wiki/Multiple_comparisons i http://en.wikipedia.org/wiki/Post-hoc_analysis
Proponuję przeczytać następujące informacje:
Anderson, DR, Burnham, KP, Thompson, WL, 2000. Testowanie hipotezy zerowej: problemy, rozpowszechnienie i alternatywa. J. Wildl. Zarządzać. 64, 912–923. Gigerenzer, G., 2004. Bezmyślne statystyki. Journal of Socio-Economics 33, 587-606. Johnson, DH, 1999. Nieistotność statystycznego testowania istotności. The Journal of Wildlife Management 63, 763-772.
Hipotezy zerowe są rzadko interesujące w tym sensie, że z każdego eksperymentu lub zestawu obserwacji istnieją dwa wyniki: prawidłowe odrzucenie wartości zerowej lub popełnienie błędu typu II. Rozmiar efektu jest tym, co prawdopodobnie interesuje Cię w określeniu, a po zakończeniu powinieneś stworzyć przedziały ufności dla tego rozmiaru efektu.