Jeśli chodzi o testowanie istotności (lub cokolwiek innego, co robi zasadniczo to samo co testowanie istotności), od dawna myślałem, że najlepszym podejściem w większości sytuacji jest prawdopodobnie oszacowanie standardowej wielkości efektu, z 95% przedziałem ufności w tym zakresie wielkość efektu. Nie ma w tym nic nowego - matematycznie można tasować między nimi - jeśli wartość p dla zerowego null wynosi <0,05, wówczas 0 będzie znajdować się poza 95% CI i odwrotnie. Moim zdaniem zaletą tego jest psychologia; to znaczy tworzy istotne informacje, ale ludzie nie mogą ich zobaczyć, gdy zgłaszane są tylko wartości p. Na przykład łatwo zauważyć, że efekt jest szalenie „znaczący”, ale absurdalnie mały; lub „nieistotne”, ale tylko dlatego, że paski błędów są ogromne, podczas gdy szacowany efekt jest mniej więcej taki, jak się spodziewałeś. Można je sparować z surowymi wartościami i ich CI.
d=−1.6±.5
Z drugiej strony, myślę, że większym pytaniem jest: „czy testowanie istotności robi to, czego naprawdę chcemy?”. Myślę, że prawdziwym problemem jest to, że dla większości osób analizujących dane (tj. Praktyków, a nie statystyków) testy istotności mogą stać się całością analizy danych. Wydaje mi się, że najważniejsze jest posiadanie zasadnego sposobu myślenia o tym, co dzieje się z naszymi danymi, a testowanie znaczenia hipotezy zerowej jest w najlepszym razie bardzo małą częścią tego. Podam wymyślony przykład (potwierdzam, że jest to karykatura, ale niestety obawiam się, że jest to trochę prawdopodobne):
Bob przeprowadza badanie, gromadząc dane na temat czegoś takiego lub innego. Oczekuje, że dane będą normalnie rozmieszczone, ściśle skupione wokół pewnej wartości, i zamierza przeprowadzić test t dla jednej próby, aby sprawdzić, czy jego dane są „znacząco różne” od pewnej z góry określonej wartości. Po pobraniu próbki sprawdza, czy jego dane są zwykle dystrybuowane, i stwierdza, że nie są. Zamiast tego nie mają wyraźnej bryły w środku, ale są względnie wysokie w danym przedziale, a następnie odchodzą długim długim lewym ogonem. Bob martwi się, co powinien zrobić, aby upewnić się, że jego test jest ważny. W końcu robi coś (np. Transformację, test nieparametryczny itp.), A następnie zgłasza statystyki testu i wartość p.
Mam nadzieję, że to nie wygląda tak źle. Nie chcę kpić z nikogo, ale myślę, że coś takiego zdarza się czasami. W przypadku wystąpienia takiego scenariusza wszyscy możemy zgodzić się, że jest to słaba analiza danych. Problemem nie jest jednak to, że statystyka testu lub wartość p są nieprawidłowe; jakie możemy przyjąć, że dane zostały prawidłowo obsługiwane w tym względzie. Argumentowałbym, że problem polega na tym, że Bob jest zaangażowany w coś, co Cleveland nazwał „analizą danych rote”. Wydaje się wierzyć, że jedynym celem jest uzyskanie odpowiedniej wartości p, i bardzo mało myśli o swoich danych poza realizacją tego celu. Mógł nawet przejść do mojej powyższej sugestii i zgłosić znormalizowany rozmiar efektu z 95% przedziałem ufności, i to nie zmieniłoby tego, co uważam za większy problem (to właśnie miałem na myśli mówiąc „zasadniczo to samo” „w inny sposób). W tym konkretnym przypadku fakt, że dane nie wyglądały tak, jak się spodziewał (tj. Nie były normalne), jest prawdziwą informacją, jest interesującei bardzo możliwe, że ta informacja jest po prostu wyrzucana. Bob tego nie rozpoznaje, ponieważ koncentruje się na testowaniu istotności. Moim zdaniem jest to prawdziwy problem z testowaniem istotności.
Pozwólcie, że zajmę się kilkoma innymi perspektywami, o których wspomniano, i chcę jasno powiedzieć, że nikogo nie krytykuję.
- Często wspomina się, że wiele osób tak naprawdę nie rozumie wartości p (np. Myśląc, że istnieje prawdopodobieństwo, że wartość zerowa jest prawdziwa) itp. Czasami argumentuje się, że gdyby tylko ludzie stosowali podejście bayesowskie, problemy te mogłyby Idź stąd. Wierzę, że ludzie mogą podejść do analizy danych bayesowskich w sposób równie fałszywy i mechaniczny. Myślę jednak, że niezrozumienie znaczenia wartości p byłoby mniej szkodliwe, gdyby nikt nie myślał o uzyskaniu wartości p.
- Istnienie „dużych zbiorów danych” zasadniczo nie ma związku z tym problemem. Duże zbiory danych tylko pokazują, że organizowanie analizy danych pod kątem „znaczenia” nie jest pomocne.
- Nie sądzę, że problemem jest testowana hipoteza. Gdyby ludzie chcieli tylko sprawdzić, czy oszacowana wartość jest poza przedziałem, a nie czy jest równa wartości punktowej, może pojawić się wiele takich samych problemów. (Znów chcę jasno powiedzieć, że nie jesteś Bobem .)
- Dla przypomnienia chcę wspomnieć, że moja własna sugestia z pierwszego akapitu nie odnosi się do tego problemu, jak starałem się wskazać.
Dla mnie jest to podstawowa kwestia: To, czego naprawdę chcemy, to oparty na zasadach sposób myślenia o tym, co się stało . Co to znaczy w danej sytuacji nie jest wycinane i suszone. Jak przekazać to uczniom na zajęciach metodycznych nie jest ani jasne, ani łatwe. Testowanie istotności ma wiele bezwładności i tradycji. W klasie statystyk jasne jest, czego należy uczyć i jak. Dla studentów i praktyków możliwe jest opracowanie schematu pojęciowego do zrozumienia materiału oraz listy kontrolnej / schematu blokowego (widziałem niektóre!) Do przeprowadzania analiz. Testy istotności mogą oczywiście ewoluować w analizę danych rote, bez nikogo głupiego, leniwego lub złego. To jest problem.