Czy żadna korelacja nie oznacza związku przyczynowego?


73

Wiem, że korelacja nie implikuje przyczynowości, ale czy brak korelacji implikuje brak przyczynowości?


46
Cytując Andrew Gelmana: „Korelacja nawet nie implikuje korelacji”.
Mike Hunter,

9
Nie. A może być przyczyną B, ale wpływa tylko na nieliniowo.
Neil G

3
„Korelacja koreluje z przyczyną. (Po prostu nie bardzo.)”
Adrian

7
Proszę spojrzeć na tę stronę, aby zobaczyć środki przeciwne. Jeśli przyczynowość nie implikuje korelacji, to żadna korelacja nie implikuje żadnej przyczynowości.
EdM

4
Chociaż jest to dobry początek do oznaczenia, że ​​korelacja nie oznacza związku przyczynowego, a następnie omówienia szczegółów, od dawna zastanawiałem się, dlaczego wyróżnić korelację? Odłożyłem to na asonans, a pomysł atrakcyjny dla nauczycieli (mnie też), że uczniowie z pewnym wysiłkiem mogą zapamiętać hasło i wykorzystać je w swoich myślach. Ale prawda jest taka, że ​​niewiele w statystykach oznacza związek przyczynowy. Innymi słowy, to ostrzeżenie często pojawia się w rozdziale dotyczącym korelacji lub wykładu na temat korelacji, ale należy ono wszędzie.
Nick Cox,

Odpowiedzi:


76

czy brak korelacji oznacza brak przyczynowości?

Nie. Każdy kontrolowany system jest kontrprzykładem.

Bez związków przyczynowych kontrola jest oczywiście niemożliwa, ale skuteczna kontrola oznacza - z grubsza mówiąc - że pewna ilość jest utrzymywana na stałym poziomie, co oznacza, że ​​nie będzie ona skorelowana z niczym, w tym z niczym, co powoduje, że jest stała.

Zatem w tej sytuacji błędem byłoby stwierdzenie braku związku przyczynowego z powodu braku korelacji.

Oto nieco aktualny przykład .


Intuicyjny sposób myślenia o tym
Repmat

+1, ciekawe ujęcie. Wydaje się jednak sugerować, że związek przyczynowy może być obecny przy braku jakiejkolwiek korelacji . To nie może być prawda. Jeśli jakieś zdarzenie spowoduje inne, pojawi się jakaś „korelacja”, ta stała, o której wspomniałeś, będzie miała postać korelacji nieliniowej
Aksakal

1
+1 stanik vo! Kiedy zobaczyłem tytuł pytania na pasku bocznym, powiedziałem: „To wymaga odpowiedzi z perspektywy systemu”. Udało wam się.
Alexis,

Jeśli z braku korelacji usunie się przyczynowość, czy pozostałe funkcjonowanie będzie kandydatem do określenia „przypadkowości”?
ttnphns

1
Nie jestem pewien, czy rozumiem pytanie @ ttnphns, ale myślę, że odpowiedź brzmi: jeśli zatrzasniesz linkę hamulca (lub odłączysz pedał przyspieszenia), wzgórza rzeczywiście zaczną wykazywać ich przyczynowy wpływ na prędkość samochodu.
conjugateprior

30

Nie. Głównie dlatego, że przez korelację najprawdopodobniej masz na myśli korelację liniową . Dwie zmienne mogą być skorelowane nieliniowo i mogą nie wykazywać korelacji liniowej . Łatwo jest skonstruować taki przykład, ale dam ci przykład, który jest bliższy twojemu (węższemu) pytaniu.

Spójrzmy na losową zmienną i nieprzypadkową funkcję , za pomocą której tworzymy losową zmienną . Ta ostatnia jest wyraźnie spowodowana przez pierwszą zmienną, a nie tylko skorelowaną. Narysujmy wykres punktowy:xf(x)=x2y=f(x)

wprowadź opis zdjęcia tutaj

Ładny, wyraźny obraz korelacji nieliniowej , ale w tym przypadku jest to również bezpośrednia przyczynowość. Jednak współczynnik korelacji liniowej jest nieistotny, tzn. Nie ma korelacji liniowej pomimo oczywistej korelacji nieliniowej, a nawet przyczynowości:

>> x=randn(100,1);
>> y=x.^2;
>> scatter(x,y)
>> [rho,pval]=corr(x,y)

rho =

    0.0140


pval =

    0.8904

AKTUALIZACJA: @Kodiologist ma rację w komentarzu. Matematycznie można wykazać, że współczynnik korelacji liniowej dla tych dwóch zmiennych rzeczywiście wynosi zero. W moim przykładzie jest standardową zmienną normalną, więc mamy następujące: Stąd, kowariancja (a następnie korelacja) wynosi zero: x

E[x]=0
E[x2]=1
E[xx2]=E[x3]=0
Cov[x,x2]=E[xx2]E[x]E[x2]=0

Otrzymalibyśmy ten sam wynik dla dowolnego rozkładu symetrycznego, takiego jak jednolity .U[1,1]


8
Brak znaczenia nie oznacza prawdziwości hipotezy zerowej. W twoim przykładzie ważne jest to, że współczynnik korelacji populacji wynosi 0.
Kodiolog

1
Dlaczego uważasz, że PO oznacza korelację liniową?
immibis

@immibis, ponieważ związek przyczynowy musi skutkować jakąś korelacją nieliniową.
Aksakal

Dlaczego korelacja wynosi zero? Kowariancja to , i ogólnie dla zmiennej losowej a następnie .. Jest jednak w przypadku standardu normalnyX E [ X 3 ] E [ X 2 ] E [ X ] XE[X3]E[X2]E[X]XE[X3]E[X2]E[X]X
Ant

@Ant, używam standardowej wartości normalnej dla w przykładzie MATLAB. Zaktualizowałem swój post, aby było jasne. Dzięki za zwrócenie na to uwagi. x
Aksakal

18

Nie . W szczególności zmienne losowe mogą być zależne, ale nieskorelowane.

Oto przykład. Załóżmy, że mam maszynę, która pobiera pojedyncze dane wejściowe i generuje losową liczbę , która jest równa albo albo z jednakowym prawdopodobieństwem. Oczywiście powoduje . Teraz niech będzie zmienną losową równomiernie rozmieszczoną na i wybierz pomocą , indukując łączny rozkład na . i są zależne, ponieważx[1,1]YxxxYX[1,1]Yx=X(X,Y)XY

P(X<12)P(|Y|<12)=1412=180=P(X<12,|Y|<12).

Jednak korelacja i wynosi 0, ponieważYXY

Corr(X,Y)=Cov(X,Y)σXσY=E[XY]E[X]E[Y]σXσY=000σXσY=0.

1
W rzeczywistości jest to zły przykład. X nie powoduje Y. Zmienna binarna nieobecna w modelu PresenceOfX jest faktyczną przyczyną z korelacją 1. To, co udowodniłeś, to fakt, że wartość X nie wpływa na Y.
user2088176

6
Jestem naprawdę ze stratą dla jak można poczuć, że wybór nie powoduje . Być może powinieneś sprecyzować, co rozumiesz przez „przyczynę”. xY
Kodiolog,

5
@ user2088176 Oto krótki dowód, że wybór powoduje . Użyjmy kontrfaktyczną model przyczynowości, w którym jest indeksem do zestawu możliwych rozkładów dla . Jeśli , oznacza lub z jednakowym prawdopodobieństwem. Jeśli , oznacza lub z jednakowym prawdopodobieństwem. Ponieważ kontrfaktyczne rozróżniane przez wartość implikują odrębne rozkłady dla , wybór powodujexYxYx=12Y1212x=34Y3434xYxY .
Kodiolog,

1
Ten przykład może być prostszy (i nadal działa), jeśli ograniczymy do . x[0,1]
JiK

3
Co z prostym i standardowym przykładem: i . Są skorelowane, ale -distributed jest całkowicie zależne od . XN(0,1)X2χ2(1)X2X
Therkel

14

Może pomoże to spojrzeć na to z perspektywy obliczeniowej.

Jako konkretny przykład weźmy generator liczb pseudolosowych.

Czy istnieje związek przyczynowy między ustawionym ziarnem a wyjściem z generatora?kth

Czy istnieje jakaś mierzalna korelacja?


7

Lepszą odpowiedzią na to pytanie jest to, że korelacja jest relacją statystyczną, matematyczną i / lub fizyczną, podczas gdy związek przyczynowy jest relacją metafizyczną. Nie można logicznie przejść od korelacji (lub braku korelacji) do przyczynowości, bez (dużego) zestawu założeń wiążących metafizykę z fizyką. (Jednym z przykładów jest to, że to, co dwoje ludzi może zgodzić się na „racjonalnego obserwatora”, jest w dużej mierze arbitralne i prawdopodobnie dwuznaczne). Jeśli A płaci B za wykonanie C, co skutkuje D, jaka jest przyczyna D? Po prostu nie ma żadnego racjonalnego powodu, aby wybrać C, B lub A (lub dowolne z zdarzeń poprzedzających A). Teoria sterowania dotyczy systemów w królestwach, w których są one kontrolowane. Jednym ze sposobów uzyskania kontroli nad zmienną zależną jest zmniejszenie odpowiedzi tej zmiennej na możliwy zakres (kontrolowanej) zmiany zmiennej niezależnej na szum statystyczny. Na przykład wiemy, że ciśnienie powietrza jest skorelowane ze zdrowiem (po prostu spróbuj oddychać próżniowo), ale jeśli kontrolujemy ciśnienie powietrza do 1 +/- 0,001 atm, jak prawdopodobne jest, że DOWOLNA zmiana ciśnienia powietrza ma wpływ na zdrowie?


Rozróżnienie, którego szukasz, to „obserwowane w próbce” (korelacja) vs zależność, która istnieje niezależnie od tego, czy jest obserwowana w próbce (fizyka). W tym wyjaśnieniu nie ma roli dla metafizyki (choć niektóre dla fizycznego założenia). Sprężyny mają elastyczne ograniczenia, niezależnie od tego, czy kiedykolwiek je osiągają. Lub w bardziej domowym przykładzie: kostka cukru jest rozpuszczalna - wyraźnie przyczynowa koncepcja sugerująca z grubsza, że jeśli upuścisz ją w herbacie, rozpuści się. Ale ta przyczynowość wynika wyłącznie z jej budowy fizycznej . Kostki cukru byłyby rozpuszczalne, nawet gdybyśmy nigdy nie myśleli o ich rozpuszczeniu.
conjugateprior

1
Oczywiście masz rację, że bez przyczynowych założeń w sporze nie wyciąga się z tego przyczynowych wniosków. Ale tak naprawdę nie ma w tym nic bardzo metafizycznego!
conjugateprior

fwiw kontrfaktyczna teoria przyczynowości (np. Pearl lub Woodward) ma dokładnie taki sens, że „Jeśli A płaci B za C, co powoduje D, co jest przyczyną D? Po prostu nie ma racjonalnego powodu, aby wybrać C, B lub A” . Jedynym staroświecki pogląd i bezużyteczny pogląd, że teorie te spocząć jest to, że zawsze możemy zrobić Sené idei, że istnieje przyczyną czegoś. Oczywiście, że nie ma.
conjugateprior

5

Tak , w przeciwieństwie do poprzednich odpowiedzi. Przyjmuję to pytanie jako nietechniczne, szczególnie definicję „korelacji”. Może używam go zbyt szeroko, ale zobacz moją drugą kulę. Mam nadzieję, że rozważenie innych odpowiedzi tutaj zostanie uznane za właściwe, ponieważ wyjaśniają one różne części pytania. Opieram się na podejściu Pearl do związku przyczynowego, a zwłaszcza na moim podejściu w niektórych dokumentach z Kevinem Korbem. Woodward prawdopodobnie ma najczystsze konto nietechniczne.

  • @conjugateprior mówi „każdy kontrolowany system jest kontrprzykładem”. Tak, silniejsze twierdzenie, że brak korelacji zaobserwowany w eksperymencie nie oznacza związku przyczynowego. Zakładam, że pytanie jest bardziej ogólne. Z pewnością w jednym eksperymencie mogło nie być możliwe kontrolowanie przyczyn maskowania lub niewłaściwie kontrolowane pod kątem typowych efektów i ukryto korelację. Ale jeśli spowoduje , nastąpi kontrolowany eksperyment, w którym związek zostanie ujawniony. Prawie wszystkie definicje lub relacje przyczynowe traktują to jako różnicę, która robi różnicę. Dlatego nie ma związku przyczynowego bez (pewnego rodzaju) korelacji. Jeśli istnieje bezpośredni link w przyczynowej sieci bayesowskiej, nie oznacza to, żey x y x y y x yxyxyx zawsze robi różnicę w stosunku do , tyle że istnieje pewien eksperyment ustalający wszystkie inne przyczyny których poruszenie porusza .yyxy

  • @aksakal ma świetny przykład, dlaczego przyczynowość liniowa jest niewystarczająca. Zgadzam się, ale chcę być szeroki i nietechniczny. Jeśli , niepełne jest powiedzenie klientowi, że jest nieskorelowane z . Wykorzystam więc korelację bardzo szeroko, aby oznaczać różnicę która jest niezawodnie powiązana z różnicą . Może być tak nieliniowy, jak i nieparametryczny, jak chcesz. Efekty progowe są w porządku ( robi różnicę w stosunku do , ale tylko w ograniczonym zakresie lub tylko dlatego, że jest większy lub mniejszy od określonej wartości, np. Napięcie w obwodach cyfrowych). y x x y x yy=x2yxxyxy

  • @Kodiologist tworzy przykład, w którym , więcale brak korelacji liniowej. Ale wyraźnie istnieje związek, który można odkryć, więc jest on skorelowany w szerokim tego słowa znaczeniu.| y | = | x |y=Unif(x,x)|y|=|x|

  • @Szabolcs używa generatorów liczb losowych, aby pokazać strumień wyjściowy skonstruowany tak, aby wyglądał na nieskorelowany. Podobnie jak cyfry , strumień wydaje się losowy, ale deterministyczny. Zgadzam się, że prawdopodobnie nie znajdziesz relacji, jeśli podasz tylko dane, ale ona istnieje.π

  • @Li Zhi zauważa, że ​​nie można logicznie przejść od korelacji do związku przyczynowego. Tak, żadnych przyczyn, żadnych przyczyn. Ale pytanie zaczyna się od związku przyczynowego: czy oznacza korelację? W przykładzie ciśnienia powietrza mamy efekt progowy. Istnieje zakres, w którym ciśnienie powietrza nie jest skorelowane ze zdrowiem. Rzeczywiście, prawdopodobnie nie ma to wpływu przyczynowego na zdrowie. Ale jest zasięg, w którym to działa. To wystarczy. Ale prawdopodobnie lepiej zanotować zakresy, w których występuje i nie ma żadnego efektu. Jeśli , wówczas istnieje korelacja na całym łańcuchu, ponieważ istnieje związek przyczynowy. Powtarzająca się obserwacja (lub eksperyment) może wykazać, że nie powoduje bezpośrednioABCDD.AD ale korelacja istnieje, ponieważ istnieje historia przyczynowa.

Nie wiem, co miał na myśli @ user2088176, ale myślę, że jeśli przyjmiemy to pytanie bardzo ogólnie, odpowiedź brzmi tak. Przynajmniej myślę, że taka odpowiedź jest wymagana w literaturze na temat odkrywania przyczyn i interwencjonistycznego opisu przyczyn. Przyczyny są różnicami, które robią różnicę. Różnica ta zostanie ujawniona w pewnym eksperymencie jako trwałe powiązanie.


1
Miałem nadzieję, że podejdę do tego z prostszej i nietechnicznej strony. Co znaczy „przyczyna”? Przypuszczalnie wiąże się to ze zmianą czegoś, co prowadzi do zmiany czegoś innego. Nie mogę pojąć związku przyczynowego bez jakiejś korelacji.
Behacad,

1
@ Behacad Myślę, że kontrast występuje pomiędzy pewną korelacją (coś, co można zaobserwować) a pewnego rodzaju zależnością (która może nigdy nie zostać wyzwolona). Istnieją zależności wyzwalane, ale korelacje nie są obserwowane. Właśnie dlatego związek przyczynowy ma w swojej definicji element kontrfaktyczny, podczas gdy korelacja nie.
conjugateprior
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.