W odpowiedzi na rosnącą liczbę statystyk i badaczy krytykujących użyteczność testowania zerowej hipotezy (NHT) dla nauki jako kumulatywnego przedsięwzięcia, grupa zadaniowa American Psychological Association ds. Wnioskowania statystycznego uniknęła całkowitego zakazu NHT, ale zasugerowała, że badacze raportować rozmiary efektów oprócz wartości p pochodzących z NHT.
Jednak rozmiary efektów nie są łatwo kumulowane we wszystkich badaniach. Podejścia metaanalityczne mogą akumulować rozkłady wielkości efektów, ale wielkości efektów są zwykle obliczane jako stosunek między surową wielkością efektu a niewyjaśnionym „szumem” w danych danego eksperymentu, co oznacza, że na rozkład wielkości efektu ma wpływ nie tylko zmienność surowej wielkości efektu między badaniami, ale także zmienność manifestacji hałasu w badaniach.
W przeciwieństwie do tego alternatywna miara siły efektu, współczynników prawdopodobieństwa, pozwala zarówno na intuicyjną interpretację na zasadzie badania po badaniu, i może być łatwo agregowana w ramach badań w celu metaanalizy. W ramach każdego badania prawdopodobieństwo reprezentuje wagę dowodów dla modelu zawierającego dany efekt w stosunku do modelu, który nie zawiera efektu, i zazwyczaj można je zgłaszać jako, na przykład, „Obliczenie współczynnika prawdopodobieństwa dla efektu X ujawniło 8 razy więcej dowodów na efekt niż na odpowiednią wartość zerową ". Ponadto wskaźnik prawdopodobieństwa pozwala również na intuicyjne przedstawienie siły wyników zerowych, o ile współczynniki wiarygodności poniżej 1 reprezentują scenariusze, w których preferowana jest wartość zerowa, a przyjęcie odwrotności tej wartości reprezentuje wagę dowodów dla wartości zerowej nad efektem. Szczególnie, iloraz prawdopodobieństwa jest reprezentowany matematycznie jako iloraz niewyjaśnionych wariancji dwóch modeli, które różnią się jedynie wariancją wyjaśnioną przez efekt, a zatem nie jest wielkim koncepcyjnym odejściem od wielkości efektu. Z drugiej strony, obliczenie metaanalitycznego współczynnika wiarygodności, reprezentującego wagę dowodów na efekt w różnych badaniach, jest po prostu kwestią wzięcia iloczynu ilorazów prawdopodobieństwa w różnych badaniach.
Dlatego twierdzę, że dla nauki dążącej do ustalenia stopnia rażących dowodów na korzyść efektu / modelu, stosunki prawdopodobieństwa są dobrym rozwiązaniem.
Istnieją bardziej niuansowe przypadki, w których modele są rozróżnialne tylko pod względem konkretnego rozmiaru efektu, w którym to przypadku preferowane może być pewne przedstawienie przedziału, w którym naszym zdaniem dane są zgodne z wartościami parametrów efektu. Rzeczywiście, grupa zadaniowa APA zaleca również zgłaszanie przedziałów ufności, które można wykorzystać w tym celu, ale podejrzewam, że jest to również źle przemyślane podejście.
Przedziały ufności są żałośnie często źle interpretowane (zarówno przez studentów, jak i badaczy ). Obawiam się również, że ich zdolność do stosowania w NHT (poprzez ocenę włączenia zera w CI) służy jedynie dalszemu opóźnieniu wyginięcia NHT jako praktyki wnioskowania.
Zamiast tego, gdy teorie różnią się jedynie wielkością efektów, sugeruję, że bardziej odpowiednie byłoby podejście bayesowskie, w którym wcześniejszy rozkład każdego efektu jest definiowany przez każdy model osobno, a wynikowe rozkłady tylne są porównywane.
Czy takie podejście, zastępujące wartości p, wielkości efektów i przedziały ufności współczynnikami prawdopodobieństwa oraz, w razie potrzeby, porównanie modelu Bayesa, wydaje się wystarczające? Czy brakuje jakiejś niezbędnej funkcji wnioskowania, którą zapewniają tu złowrogie alternatywy?