W rzeczywistości, p-wartości są teraz również „poza modą”: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Testowanie znaczenia hipotezy zerowej (NHST) daje niewiele więcej niż opis wielkości próby. (*) Każda interwencja eksperymentalna przyniesie pewien efekt, to znaczy, że prosta hipoteza zerowa „braku efektu” jest zawsze fałszywa w ścisłym znaczeniu . Dlatego „nieistotny” test oznacza po prostu, że wielkość próbki nie była wystarczająco duża; „znaczący” test oznacza, że zebrałeś wystarczającą ilość danych, aby „coś” znaleźć.
„Wielkość efektu” stanowi próbę zaradzenia temu poprzez wprowadzenie pomiaru w naturalnej skali problemu. W medycynie, gdzie leczenie zawsze przynosi pewien efekt (nawet jeśli jest to efekt placebo), wprowadzono pojęcie „klinicznie znaczącego efektu”, aby uchronić się przed 50% prawdopodobieństwem, że „leczenie” okaże się „( statystycznie) znaczący pozytywny efekt ”(choć niewielki) w arbitralnie dużym badaniu.
Jeśli rozumiem naturę twojej pracy, klarnecisto, to w końcu jej uzasadnionym celem jest informowanie o działaniach / interwencjach, które poprawiają edukację w szkołach pod twoim nadzorem. Zatem twoje ustawienie jest oparte na teorii , a metody bayesowskie są najwłaściwszym (i wyjątkowo spójnym [1] ) podejściem.
Rzeczywiście, najlepszym sposobem na zrozumienie metod częstych jest przybliżenie metod bayesowskich . Oszacowaną wielkość efektu można rozumieć jako zmierzającą do pomiaru centralności rozkładu bayesowskiego w odcinku bocznym , podczas gdy wartość p można rozumieć jako zmierzającą do zmierzenia jednego ogona tego odcinka tylnego. Tak więc razem te dwie wielkości zawierają zgrubną treść tylnej bayesowskiej, która stanowi naturalny wkład w teoretyczne spojrzenie na twój problem. (Alternatywnie częsty przedział ufności dotyczący wielkości efektu można również rozumieć jako przedział wiarygodny ).
W dziedzinie psychologii i edukacji metody bayesowskie są w rzeczywistości dość popularne. Jednym z powodów jest to, że łatwo jest instalować „konstrukcje” w modelach bayesowskich jako zmienne ukryte. Możesz zajrzeć do „książki o szczeniętach” Johna K. Kruschke , psychologa. W edukacji (gdzie uczniowie zagnieżdżają się w klasach, zagnieżdżają się w szkołach, zagnieżdżają się w dzielnicach ...) modelowanie hierarchiczne jest nieuniknione. Modele bayesowskie świetnie nadają się również do modelowania hierarchicznego. Na tym koncie możesz sprawdzić Gelman & Hill [2].
[1]: Robert, Christian P. Wybór bayesowski: od teoretycznych podstaw decyzji do implementacji obliczeniowej. 2nd ed. Teksty Springera w statystyce. New York: Springer, 2007.
[2]: Gelman, Andrew i Jennifer Hill. Analiza danych za pomocą regresji i modeli wielopoziomowych / hierarchicznych. Metody analityczne w badaniach społecznych. Cambridge; Nowy Jork: Cambridge University Press, 2007.
Więcej informacji na temat „koherencji” z perspektywy niekoniecznie bicia się w głowę z perspektywy cegły bayesowskiej można znaleźć w [3].
[3]: Robins, James i Larry Wasserman. „Uwarunkowania, prawdopodobieństwo i spójność: przegląd niektórych podstawowych koncepcji”. Journal of American Statistics Association 95, nr. 452 (1 grudnia 2000 r.): 1340–46. doi: 10.1080 / 01621459.2000.10474344.
(*) W [4] Meehl biczuje NHST o wiele bardziej elegancko, ale nie mniej szorstko, niż ja:
Ponieważ hipoteza zerowa jest prawie zawsze fałszywa, tabele podsumowujące badania w kategoriach wzorców „znaczących różnic” są niewiele więcej niż złożone, przyczynowo niemożliwe do interpretacji wyniki funkcji mocy statystycznej.
[4]: Meehl, Paul E. „Teoretyczne ryzyko i gwiazdkowe tablice: Sir Karl, Sir Ronald i powolny postęp miękkiej psychologii.” Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
A oto pokrewny cytat z Tukey: /stats//a/728/41404