Czy niezależność statystyczna oznacza brak związku przyczynowego?

40

Dwie losowe zmienne A i B są statystycznie niezależne. Oznacza to, że w DAG procesu: i oczywiście . Ale czy to oznacza również, że nie ma drzwi od B do A? $(A {\perp\!\!\!\perp} B)$ $P(A|B)=P(A)$

Ponieważ wtedy powinniśmy uzyskać . Jeśli tak, to czy niezależność statystyczna automatycznie oznacza brak związku przyczynowego? $P(A|do(B))=P(A)$

— użytkownik1834069
źródło

37

Jeśli tak, to czy niezależność statystyczna automatycznie oznacza brak związku przyczynowego?

Nie, a oto prosty licznik z wielowymiarową normą,

set.seed(100)
n <- 1e6
a <- 0.2
b <- 0.1
c <- 0.5
z <- rnorm(n)
x <- a*z + sqrt(1-a^2)*rnorm(n)
y <- b*x - c*z + sqrt(1- b^2 - c^2 +2*a*b*c)*rnorm(n)
cor(x, y)

Z odpowiednim wykresem

Tutaj mamy to i są niezależne marginalnie (w normalnym przypadku wielowymiarowej, zerowa korelacja oznacza niezależność). Dzieje się tak, ponieważ ścieżka backdoora przez dokładnie anuluje bezpośrednią ścieżkę od do , to znaczy . Zatem $x$ $y$ $z$ $x$ $y$ $cov(x,y) = b - a*c = 0.1 - 0.1 = 0$ . Jednak bezpośrednio powoduje , a my mamy to , który różni się od . $E[Y|X =x] =E[Y] =0$ $x$ $y$ $E[Y|do(X= x)] = bx$ $E[Y]=0$

Stowarzyszenia, interwencje i scenariusze alternatywne

Myślę, że ważne jest, aby tu wyjaśnić niektóre skojarzenia, interwencje i scenariusze alternatywne.

Modele przyczynowe zawierają stwierdzenia dotyczące zachowania systemu: (i) pod obserwacjami pasywnymi, (ii) pod interwencjami, a także (iii) scenariusz alternatywny. Niezależność na jednym poziomie niekoniecznie przekłada się na drugi.

Jak pokazuje powyższy przykład, nie możemy mieć żadnego związku między i , to znaczy $X$ $Y$ , i nadal tak jest, że manipulacje na zmieniają rozkład , to znaczy . $P(Y|X) = P(Y)$ $X$ $Y$ $P(Y|do(x)) \neq P(Y)$

$X$ $Y$ $P(Y|do(x)) = P(Y)$ $Y$ $X$

Te trzy poziomy tworzą hierarchię zadań wnioskowania przyczynowego pod względem informacji potrzebnych do udzielenia odpowiedzi na pytania dotyczące każdego z nich.

— Carlos Cinelli
źródło

1

Dziękuję, właśnie tego szukałem. Sądzę więc, że moje zamieszanie było spowodowane (bez zamierzonej gry słów) myśleniem, że statystyczna niezależność oznacza również separację D między dwiema zmiennymi. Ale to działa tylko na odwrót, prawda?

— user1834069,

@ user1834069 to prawda, separacja d oznacza niezależność, ale niezależność nie oznacza separacji d. Te dwa są przykładami, w których rozkład jest niewierny na wykresie, i widać, że zależy od wyboru parametryzacji. Jeśli zmienimy parametry, zależność pojawi się ponownie.

— Carlos Cinelli

Niezły przykład. Jeśli dobrze pamiętam, jest to jedno z nie dających się przetestować założeń eksploracji danych przyczynowych na podstawie danych obserwacyjnych. W przypadku modeli liniowych w SEM książka Pearl wspomina również, że zbiór współczynników, które powodują niewierny rozkład, ma miarę 0.

— Vimal

37

Załóżmy, że mamy żarówkę kontrolowaną przez dwa przełączniki. Niech $S_1$ $S_2$ $L$ $L = \text{XOR}(S_1, S_2)$

$L$ $S_1$ $S_2$

$p(S_1=1) = p(S_2=1) = 0.5$ $S_1$ $S_2$ $P(L=1) = 0.5$ $p(L \mid S_1) = p(L \mid S_2) = p(L)$ $L$ $S_1$ $L$ $S_2$

$L$ $S_1$ $S_2$

— user20160
źródło

2

P (L | d o (S_{1})) = P (L)

$P(L|do(S_1)) = P(L)$

p (L | S_{1}, S_{2})

$p(L|S_1, S_2)$

p (L)

$p(L)$

(v_{L}, v_{1}, v_{2}) \in {0, 1}^{3}

$(v_L, v_1, v_2) \in \{0,1\}^3$

p (L = v_{L} | S_{1} = v_{1}) = p (L = v_{L} | S_{2} = v_{2}) = 0.5

$p(L=v_L|S_1=v_1) = p(L=v_L|S_2=v_2) = 0.5$

p (L = v_{L} | S_{1} = v_{1}, S_{2} = v_{2}) \in {0, 1}

$p(L=v_L|S_1=v_1, S_2=v_2) \in \{0, 1\}$

0

W oparciu o twoje pytanie możesz myśleć w ten sposób:

$P(A B) = P(A) P(B)$ $A$ $B$

$P(AB)/P(A) = P(B|A) = P(B)$

$P(AB)/P(B) = P(A|B) = P(A)$

Pod tym względem uważam, że niezależność oznacza brak związku przyczynowego. Jednak zależność niekoniecznie oznacza związek przyczynowy.

— Szejk
źródło

2

P (A B) = P (A) P (B)

$P(AB)=P(A)P(B)$

P (A | d o (B)) = P (A)

$P(A|do(B))=P(A)$