Co model statystyczny może powiedzieć o związku przyczynowym? Jakie należy wziąć pod uwagę wnioskowanie przyczynowe na podstawie modelu statystycznego?
Pierwszą rzeczą do wyjaśnienia jest to, że nie można wnioskować o przyczynach na podstawie czysto statystycznego modelu. Żaden model statystyczny nie może nic powiedzieć o związku przyczynowym bez założeń przyczynowych. Oznacza to, że do wnioskowania przyczynowego potrzebny jest model przyczynowy .
Nawet w czymś uważanym za złoty standard, takim jak Randomized Control Trials (RCT), musisz poczynić założenia przyczynowe, aby kontynuować. Pozwól mi to wyjaśnić. Załóżmy na przykład, że to procedura randomizacji, to leczenie odsetek, a to wynik zainteresowania. Zakładając idealny RCT, zakładasz, że:ZXY
W tym przypadku więc wszystko działa dobrze. Przypuszczam jednak, trzeba niedoskonałe zgodności uzyskanej w przeklętego relacji między i . Następnie twój RCT wygląda następująco:P(Y|do(X))=P(Y|X)XY
Nadal możesz zrobić zamiar leczenia. Ale jeśli chcesz oszacować rzeczywisty efekt rzeczy nie są już proste. Jest to ustawienie zmiennej instrumentalnej i możesz być w stanie powiązać lub nawet wskazać efekt, jeśli przyjmiesz pewne założenia parametryczne .X
To może się jeszcze bardziej skomplikować. Mogą występować problemy z błędami pomiaru, uczestnicy mogą zrezygnować z badania lub nie postępować zgodnie z instrukcjami, między innymi. Musisz założyć, w jaki sposób te rzeczy są powiązane z postępowaniem z wnioskowaniem. W przypadku „czysto” danych obserwacyjnych może to być bardziej problematyczne, ponieważ zwykle badacze nie mają dobrego pojęcia o procesie generowania danych.
Stąd, aby wyciągać wnioski przyczynowe z modeli, należy oceniać nie tylko jego założenia statystyczne, ale przede wszystkim jego założenia przyczynowe. Oto kilka typowych zagrożeń dla analizy przyczynowej:
- Niekompletne / nieprecyzyjne dane
- Docelowa przyczynowo-skutkowa wielkość zainteresowania nie jest dobrze zdefiniowana (Jaki jest efekt przyczynowy, który chcesz zidentyfikować? Jaka jest populacja docelowa?)
- Zakłócanie (niezauważone pomyłki)
- Błąd selekcji (autoselekcja, okrojone próbki)
- Błąd pomiaru (który może powodować zamieszanie, a nie tylko hałas)
- Błędna specyfikacja (np. Niewłaściwa forma funkcjonalna)
- Problemy z zewnętrzną wiarygodnością (błędne wnioskowanie do populacji docelowej)
Czasami twierdzenie o braku tych problemów (lub twierdzenie, że rozwiązano te problemy) może być poparte projektem samego badania. Dlatego dane eksperymentalne są zwykle bardziej wiarygodne. Czasami jednak ludzie przejmują te problemy albo teorią, albo dla wygody. Jeśli teoria jest miękka (jak w naukach społecznych), trudniej będzie wyciągać wnioski według wartości nominalnej.
Ilekroć myślisz, że istnieje założenie, którego nie można poprzeć, powinieneś ocenić, jak wrażliwe są wnioski na prawdopodobne naruszenia tych założeń - zwykle nazywa się to analizą wrażliwości.