Jak znaleźć związki przyczynowe w danych?


11

Powiedzmy, że mam tabelę z kolumnami „A”, „B”

Czy istnieje metoda statystyczna pozwalająca ustalić, czy „A” powoduje „B”? Tak naprawdę nie można używać r Pearsona, ponieważ:

  • testuje tylko korelację między wartościami
  • korelacja nie jest przyczyną
  • Wartość r Pearsona może korelować tylko relacje liniowe

Jakie inne opcje mam tutaj?


1
Tam nie ma. Na podstawie takich danych można wykazać wysoki stopień korelacji; nie możesz wykazać związku przyczynowego.


1
Związek przyczynowy nie jest po prostu czymś, co można wycisnąć z liczb ... więc powtórz za mną: związek przyczynowy nie jest korelacją , związek przyczynowy nie jest korelacją ...
JM nie jest statystykiem

1
Zobacz „Przyczynowość” Judei Pearl (zdobywczyni nagrody Turinga w 2011 r.).

Odpowiedzi:


4

Dotychczasowe odpowiedzi i komentarze są zasadniczo poprawne na poziomie praktycznym, ale dla kompletności prowadzone są badania nad tak zwanymi modelami przyczynowości opartymi na statystyce bayesowskiej i teorii grafów. Tak więc chociaż ogólna korelacja faktycznie nie implikuje związku przyczynowego, istnieją bardziej złożone modele, które próbują wyeliminować związek przyczynowy. Więcej informacji można znaleźć w książce Causality autorstwa Judei Pearl, ale jest to bardzo trudna matematyka i prawdopodobnie nie jest tym, czego chcesz.


2

Istnieje wiele tak zwanych quasi-eksperymentalnych metod, za pomocą których można wiarygodnie spierać się o przyczynowość, nawet jeśli dane są obserwacyjne. Metody te zwykle polegają na znalezieniu źródła egzogenicznej zmienności w twojej zmiennej zainteresowania.

Myślę, że dobry i przystępny przegląd znajduje się w książce „Mostless Econometrics”. Obejmują w zasadzie wszystkie quasi-eksperymentalne metody, w które ludzie (czyli ekonomiści) wierzą (przynajmniej czasami). Nie obejmują one metod wymienionych na przykład przez trb456 (z tego samego powodu: niewielu w nie wierzy).


1

Aby ustalić związek przyczynowy, musisz wykonać test randomizacji. Bierzesz badanych i losowo wybierasz połowę z nich, aby uzyskać jakość A, a połowę, aby jej nie mieć. Następnie zobaczysz, czy istnieje statystycznie istotna różnica w jakości B między dwiema grupami.

Ważne jest, aby dokonać losowości przed wykonaniem jakiegokolwiek pomiaru. W szczególności, jeśli otrzymasz zestaw danych zZA i b już zmierzone, nie można ustalić związku przyczynowego.

Zauważ, że wykonanie testu randomizacji może być niemożliwe. Na przykład, jak mógłbyś sprawdzić, czy wzrost jest przyczyną większej wagi? Z pewnością istnieje korelacja między wzrostem a wagą, ale nie można losowo przypisać jednej grupy ludzi do grupy „wysokiej”, a jednej do grupy „krótkiej”. W takim przypadku nie można wykonać testu randomizacji.


0

Somers pracuje nad wyjaśnieniem związku między zmiennymi porządkowymi w sposób, który robi współczynnik korelacji Pearsona dla zbiorów danych.


1
Zgadzam się, że ustalenie związku przyczynowego wymaga czegoś więcej niż liczb. Jak zastosowanie zmiennych porządkowych wchodzi w zakres pytania?
Michael R. Chernick,

1
@MichaelChernick Somers 'D jest asymetryczną miarą asocjacji. Może rozróżnić „jeśli pada deszcz, wtedy jest pochmurno”, od „jeśli pada deszcz, wtedy pada deszcz.” Działa dla danych porządkowych lub wyższych. Nie ustanawia związku przyczynowego, ale ustanawia kierunkowość.
Dave Harris,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.