Jaka jest matematyczna definicja związku przyczynowego między dwiema zmiennymi losowymi?
Matematycznie model przyczynowy składa się z zależności funkcjonalnych między zmiennymi. Rozważmy na przykład układ równań strukturalnych poniżej:
x=fx(ϵx)y=fy(x,ϵy)
Oznacza to, że x funkcjonalnie określa wartość y (jeśli interweniujesz na x zmienia to wartości y ), ale nie na odwrót. Graficznie jest to zwykle reprezentowane przez x→y , co oznacza, że x wchodzi do równania strukturalnego y. Jako uzupełnienie można również wyrazić model przyczynowy w kategoriach wspólnych rozkładów zmiennych alternatywnych, który jest matematycznie równoważny modelom funkcjonalnym .
Biorąc pod uwagę próbkę ze wspólnego rozkładu dwóch zmiennych losowych X i Y, kiedy powiedzielibyśmy, że X powoduje Y?
Czasami (lub przez większość czasu) nie masz wiedzy o kształcie równań strukturalnych fx , fy , ani nawet czy x→y czy y→x . Jedyną dostępną informacją jest łączny rozkład prawdopodobieństwa p(y,x) (lub próbki z tego rozkładu).
To prowadzi do twojego pytania: kiedy mogę odzyskać kierunek przyczynowości tylko na podstawie danych? A dokładniej, kiedy mogę odzyskać, czy x wchodzi do równania strukturalnego y lub odwrotnie, tylko z danych?
Oczywiście bez jakichkolwiek zasadniczo niemożliwych do sprawdzenia założeń dotyczących modelu przyczynowego jest to niemożliwe . Problem polega na tym, że kilka różnych modeli przyczynowych może pociągać za sobą taki sam wspólny rozkład prawdopodobieństwa obserwowanych zmiennych. Najczęstszym przykładem jest przyczynowy układ liniowy z szumem gaussowskim.
Ale przy pewnych założeniach przyczynowych może to być możliwe - i nad tym działa literatura dotycząca odkrywania przyczyn. Jeśli nie miałeś wcześniejszego kontaktu z tym tematem, możesz zacząć od Elementów wnioskowania przyczynowego Petersa, Janzinga i Scholkopfa, a także rozdziału 2 z Causality autorstwa Judei Pearl. Mamy tutaj temat na CV z referencjami na temat odkryć przyczynowych , ale nie mamy tam jeszcze tak wielu referencji.
Dlatego nie ma tylko jednej odpowiedzi na twoje pytanie, ponieważ zależy to od przyjętych założeń. Wspomniany artykuł przytacza kilka przykładów, takich jak założenie modelu liniowego z szumem niegaussowskim . Ten przypadek jest znany jako LINGAN (skrót od liniowego niegaussowskiego modelu acyklicznego), oto przykład w R
:
library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1
# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat")
# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
# [,1] [,2]
# [1,] . .
# [2,] TRUE .
Zauważ, że mamy liniowy model przyczynowy z hałasem niegaussowskim, w którym x2 powoduje x1 a lingam poprawnie odzyskuje kierunek przyczynowo-skutkowy. Zauważ jednak, że zależy to krytycznie od założeń LINGAM.
W przypadku cytowanego artykułu przyjmują to konkretne założenie (patrz ich „postulat”):
Jeśli x→y , minimalna długość opisu mechanizmu odwzorowującego X na Y jest niezależna od wartości X, podczas gdy minimalna długość opisu mechanizmu odwzorowującego Y na X zależy od wartości Y.
Zauważ, że to założenie. To właśnie nazwalibyśmy ich „warunkiem identyfikacji”. Zasadniczo postulat nakłada ograniczenia na wspólny rozkład p(x,y) . Oznacza to, że postulat mówi, że jeśli x→y pewne ograniczenia zostaną zachowane w danych, a jeśli y→x inne ograniczenia się utrzymają. Tego rodzaju ograniczenia, które mają implikowalne konsekwencje (nakładają ograniczeniap(y,x) ), pozwalają na kierunkowe odzyskanie danych obserwacyjnych.
Na koniec, wyniki odkryć przyczynowych są nadal bardzo ograniczone i zależą od silnych założeń, zachowaj ostrożność, stosując je w kontekście realnym.