W 2009 r. Rozmawiałem ze statystykiem, w którym stwierdził, że dokładna wartość wartości p jest nieistotna: jedyne, co jest ważne, to, czy jest ona znacząca, czy nie. Tj. Jeden wynik nie może być ważniejszy od drugiego; na przykład twoje próbki pochodzą z tej samej populacji lub nie.
Mam z tym pewne skrupuły, ale być może rozumiem ideologię:
Próg 5% jest arbitralny, tzn. Że p = 0,051 nie jest znaczący i że p = 0,049 jest, nie powinien tak naprawdę zmieniać wniosków z obserwacji lub eksperymentu, mimo że jeden wynik jest znaczący, a drugi nieistotny.
Powodem, dla którego teraz o tym mówię, jest to, że studiuję na tytuł magistra w dziedzinie bioinformatyki, a po rozmowach z ludźmi w tej dziedzinie wydaje się, że istnieje zdecydowany zamiar uzyskania dokładnej wartości p dla każdego zestawu statystyk, które wykonują. Na przykład, jeśli „osiągną” wartość p wynoszącą p <1,9 × 10–12 , chcą wykazać, JAK znaczący jest ich wynik, a wynik ten jest SUPER informacyjny. Ten problem jest ilustrowany pytaniami takimi jak: Dlaczego nie mogę uzyskać wartości p mniejszej niż 2,2e-16? , w którym chcą zapisać wartość wskazującą, że sam przypadek byłby WIELKIE mniej niż 1 na bilion. Ale widzę niewielką różnicę w wykazaniu, że ten wynik wystąpiłby mniej niż 1 na bilion, w przeciwieństwie do 1 na miliard.
Mogę docenić, że p <0,01 pokazuje, że istnieje mniej niż 1% szansa, że tak się stanie, podczas gdy p <0,001 wskazuje, że taki wynik jest jeszcze bardziej mało prawdopodobny niż wspomniana wartość p, ale gdyby wyciągnięte wnioski były całkowicie różne? W końcu oba są znaczącymi wartościami p. Jedynym sposobem, w jaki mogę sobie wyobrazić rejestrację dokładnej wartości p, jest korekcja Bonferroniego, w której próg zmienia się w zależności od liczby dokonanych porównań, zmniejszając w ten sposób błąd typu I. Ale nawet dlaczego miałbyś chcieć pokazać wartość p, która jest o 12 rzędów wielkości mniejsza niż twoje znaczenie progowe?
I czy stosowanie korekty Bonferroniego nie jest samo w sobie nieco arbitralne? W tym sensie, że początkowo korekta jest postrzegana jako bardzo konserwatywna, a zatem istnieją inne poprawki, które można wybrać, aby uzyskać dostęp do poziomu istotności, który obserwator mógłby wykorzystać do ich wielokrotnych porównań. Ale z tego powodu nie jest moment, w którym coś staje się znaczące, zasadniczo zmienne, w zależności od tego, jakich statystyk chce użyć badacz. Czy statystyki powinny być tak otwarte na interpretację?
Podsumowując, czy statystyki nie powinny być mniej subiektywne (chociaż, jak sądzę, potrzeba subiektywności wynika z systemu wielowymiarowego), ale ostatecznie chcę wyjaśnienia: czy coś może być bardziej znaczące niż coś innego? I czy p <0,001 wystarczy w przypadku próby zarejestrowania dokładnej wartości p?