Związki między korelacją a przyczyną


19

Ze strony Wikipedii zatytułowanej korelacja nie oznacza związku przyczynowego ,

W przypadku dowolnych dwóch skorelowanych zdarzeń, A i B, możliwe różne zależności obejmują:

  1. A powoduje B (bezpośredni związek przyczynowy);
  2. B powoduje A (przyczynowość odwrotna);
  3. A i B są konsekwencjami wspólnej przyczyny, ale nie powodują siebie;
  4. Zarówno A, jak i B powodują C, który jest (jawnie lub domyślnie) uwarunkowany .;
  5. A powoduje B, a B powoduje A (przyczynowość dwukierunkowa lub cykliczna);
  6. A powoduje C, co powoduje B (przyczynowość pośrednia);
  7. Nie ma połączenia między A i B; korelacja jest zbiegiem okoliczności.

Co oznacza czwarty punkt. Zarówno A, jak i B powodują C, który jest (jawnie lub domyślnie) uwarunkowany. Jeśli A i B powodują C, dlaczego A i B muszą być skorelowane.


8
Obowiązkowe powiązane xkcd: xkcd.com/552
Todd Wilcox

2
Mimo powiedzenia spodziewałbym się, że istnieje wysoka korelacja między korelacją a przyczynowością ...
Mehrdad


Ewentualnie zobacz także dyskusję na stronie Czy żadna korelacja nie oznacza związku przyczynowego?
ctwardy

Odpowiedzi:


18

„Uwarunkowanie” to słowo z teorii prawdopodobieństwa: https://en.wikipedia.org/wiki/Conditional_probability

Uwarunkowanie na C oznacza, że ​​patrzymy tylko na przypadki, w których C jest prawdziwe. „Niejawnie” oznacza, że ​​możemy nie ujawniać tego ograniczenia wyraźnie, a czasem nawet nie zdawać sobie z tego sprawy.

Ten punkt oznacza, że ​​gdy zarówno A, jak i B powodują C, obserwacja korelacji między A i B w przypadkach, w których C jest prawdziwe, nie oznacza, że ​​istnieje prawdziwy związek między A i B. To po prostu uwarunkowanie na C (być może niechętnie), że tworzy sztuczną korelację.

Weźmy przykład.

W kraju istnieją dokładnie dwa rodzaje chorób, całkowicie niezależne. Zawołanie A: „osoba ma pierwszą chorobę”, B: „osoba ma drugą chorobę”. Załóżmy, że , .P ( B ) = 0,1P.(ZA)=0,1P.(b)=0,1

Teraz każda osoba, która ma jedną z tych chorób, idzie do lekarza i tylko wtedy. Zadzwoń do C: „osoba idzie do lekarza”. Mamy .do=ZA lub b

Teraz obliczmy kilka prawdopodobieństw:

  • P.(do)=0,19
  • P.(ZA|do)=P.(b|do)=0,10,190,53
  • P.(ZA i b|do)=0,010,190,053
  • P.(ZA|do)P.(b|do)0,28

Oczywiście, gdy uwarunkowane C, i są bardzo dalekie od niezależności. Właściwie uwarunkowane C, wydaje się „przyczyna” .ZAbnotZAb

Jeśli korzystasz z listy osób, które zostały nagrane przez lekarza (y) jako źródło danych do analizy, to nie wydaje się być silna korelacja pomiędzy chorobami i . Być może nie zdajesz sobie sprawy z faktu, że twoje źródło danych jest tak naprawdę warunkiem. Jest to również nazywane „nastawieniem selekcyjnym”.ZAb


13

Czwarty punkt jest przykładem paradoksu Berksona , znanego również jako warunkowanie na zderzaczu , znanego również jako zjawisko wyjaśniające .

Jako przykład weźmy młodą kobietę, która jest często zapraszana przez młodych mężczyzn na randki i musi zdecydować, czy przyjąć lub odrzucić każdą propozycję daty. Młodzi mężczyźni różnią się pod względem atrakcyjności i uroku i załóżmy, że te dwie cechy są niezależne w populacji mężczyzn proponujących randki. Oczywiście, młoda kobieta jest bardziej skłonna zaakceptować propozycję randki, im bardziej atrakcyjny i czarujący jest mężczyzna. Model przyczynowy dla takiej sytuacji może wyglądać następująco:

ZAttrzadotjavmiZAdodomiptdohzarmjansol
Oznacza to, że zarówno i C h a r m i n g powodują A c c e p t , która przyjmuje wartości 0 lub 1, jeśli kobieta odpowiednio odrzuci lub zaakceptuje propozycję daty .ZAttrzadotjavmidohzarmjansolZAdodomipt

ZAttrzadotjavmidohzarmjansolZAdodomipt=1. Przypuśćmy teraz, że mówię ci o mężczyźnie, z którym kobieta zgodziła się na randkę, i mówię ci, że on (zdaniem kobiety) wcale nie jest atrakcyjny. Wiemy, że kobieta i tak zgodziła się z nim umówić, więc moglibyśmy rozsądnie wnioskować, że musi być naprawdę uroczy. I odwrotnie, jeśli dowiemy się o człowieku, którego propozycja daty została zaakceptowana i który nie jest czarujący, rozsądnie wnioskowalibyśmy, że musi on być dość atrakcyjny.

ZAdodomipt=1ZAttrzadotjavmidohzarmjansolZAdodomipt


5

Paradoksalnie Simpsona i paradoksem Berksona każdy może przykładach przedstawiono „A i B powodują C, którym jest (bezpośrednio lub pośrednio) uwarunkowana”

100010010%20020%20

28020%100%


Jest to przykład paradoksu Berksona, a nie paradoksu Simpsona (patrz moja odpowiedź).
Jake Westfall

@JakeWestfall Prawdopodobnie masz rację - wiedziałem, że gdzieś napisałem przykład znaczków, ale zapomniałem gdzie i okazuje się, że jest to strona Wikipedii dotycząca paradoksu Berksona
Henry

4

Akapit zaczyna się od „Dla dowolnych dwóch skorelowanych zdarzeń A i B, ...”, więc domyślam się, że korelacja jest zakładana na początku. Innymi słowy, nie muszą być skorelowane, aby jednocześnie powodować C, ale jeśli były skorelowane i oba spowodowały C, nie oznacza to, że istnieje związek przyczynowy między nimi.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.