Z mojego punktu widzenia kwestia sprowadza się do tego, co faktycznie oznacza przeprowadzenie testu istotności. Testy istotności opracowano jako środek do podjęcia decyzji o odrzuceniu hipotezy zerowej lub jej odrzuceniu. Sam Fisher wprowadził niesławną zasadę 0,05 dotyczącą podejmowania tej (arbitralnej) decyzji.
Zasadniczo logika testowania istotności polega na tym, że użytkownik musi określić poziom alfa w celu odrzucenia hipotezy zerowej (konwencjonalnie 0,05) przed zebraniem danych . Po zakończeniu testu istotności użytkownik odrzuca wartość zerową, jeśli wartość p jest mniejsza niż poziom alfa (lub nie odrzuca jej w inny sposób).
Powodem, dla którego nie możesz zadeklarować efektu jako wysoce znaczącego (powiedzmy na poziomie 0,001), jest to, że nie możesz znaleźć mocniejszych dowodów, niż chciałeś znaleźć. Tak więc, jeśli ustawisz poziom alfa na 0,05 przed testem, możesz znaleźć dowody tylko na poziomie 0,05, niezależnie od tego, jak małe są twoje wartości p. W ten sam sposób mówienie o efektach „nieco znaczących” lub „zbliżających się do znaczenia” również nie ma większego sensu, ponieważ wybrałeś to arbitralne kryterium 0,05. Jeśli interpretujesz logikę testowania istotności dosłownie, nic większego niż 0,05 nie jest znaczące.
Zgadzam się, że terminy „zbliżające się znaczenie” są często używane w celu zwiększenia szans na publikację. Nie sądzę jednak, aby można było za to winić autorów, ponieważ obecna kultura publikacji w niektórych naukach nadal silnie opiera się na „świętym Graalu” wynoszącym 0,05.
Niektóre z tych zagadnień omówiono w:
Gigerenzer, G. (2004). Bezmyślne statystyki. The Journal of Socio-Economics, 33 (5), 587-606.
Royall, R. (1997). Dowody statystyczne: paradygmat prawdopodobieństwa (Vol. 71). Prasa CRC.