Jeśli korelacja nie implikuje przyczynowości, to jaka jest wartość znajomości korelacji między dwiema zmiennymi?


11

Powiedzmy, że jako właściciel firmy (lub marketing albo każdy, kto rozumie wykres rozproszenia) pokazano wykres rozproszenia dwóch zmiennych: liczby reklam w porównaniu do liczby sprzedaży produktu w ciągu ostatnich 5 lat (lub innej skali czasowej, dzięki czemu mam więcej próbek. Właśnie to wymyśliłem).

Teraz widzi on wykres rozproszenia i mówi się, że współczynnik korelacji (corr) wynosi:

  1. 1 lub
  2. 0,5 lub
  3. 0,11 lub
  4. 0 lub
  5. -0,75 lub
  6. -1

Zasadniczo każda poprawna wartość dla corr

Pytanie: Co to w ogóle oznacza dla osoby podejmującej decyzje lub dowolnego konsumenta wykresu punktowego? Jakie decyzje można na tej podstawie podjąć?

Tj. Jaki jest pożytek z dostrzegania korelacji między dowolnymi dwiema zmiennymi i co można zrobić z tą informacją oddzielnie? Czy chodzi tylko o to, aby zobaczyć, co należy brać pod uwagę przy analizie regresji, czy też nie, czy jest to bardziej praktyczne zastosowanie?

Ciekawe, zawsze pracowałem z tą techniką, ale powiedziano mi, że sama korelacja nie ma większego zastosowania - więc po co „JEST”?

Odpowiedzi:


12

Kilka myśli:

  • Stara kanada o tym, że korelacja nie jest przyczyną, to tylko połowa historii. Korelacja może nie być przyczyną, ale jakaś forma powiązania między dwiema zmiennymi jest niezbędnym krokiem na drodze do wykazania związku przyczynowego, a korelacja może to wykazać.
  • Pomaga wskazać trendy. Pokaż to właścicielowi firmy, a powiedzą: „Tak, to ma sens, bo widżet X i widżet Y są używane przez określoną grupę ludzi, nawet jeśli nie są tak naprawdę spokrewnieni. Lub mogą powiedzieć „to… dziwne”, w którym to momencie skłoniłeś do dalszego dochodzenia.
  • Spójrz na to w ten sposób. Korelacja jest narzędziem. Sam młot nie jest aż tak przydatny. Z pewnością sam nie zbuduje domu. Ale czy kiedykolwiek próbowałeś zbudować dom bez młotka?

5
W pierwszej kuli mówisz, że korelacja jest niezbędnym warunkiem przyczynowości - to nieprawda. Jeśli między dwiema zmiennymi istnieje nie-monotoniczna zależność, mogą one być nieskorelowane - nie wyklucza to związku przyczynowego.
Makro

@Macro - true i zredagowane
Fomite,

@Macro Prawda, ale w praktyce można zastosować funkcję do zmiennej, aby uczynić relację testowaną monotoniczną. jeśli nie znasz tej funkcji, to ... nie wiesz zbyt wiele o tym, czego szukasz
RockScience

@EpiGrad: Załóżmy, że wykres korelacji XY dwóch zmiennych wygląda jak szczęśliwa buźka (lub jakikolwiek inny kształt per se). Współczynnik korelacji byłby rzeczywiście niewielki, ale z pewnością istniałby pewien związek wzajemny, prawda? Jak / co należy zrobić w takim przypadku?
PhD

@Nupul Nieco bardziej skomplikowane badanie XY poza liniowością.
Fomite,

7

Spójrz na to z perspektywy hazardu. Powiedzmy, że wiemy, że średnio ludzie, którzy noszą buty robocze do pracy, doznają obrażeń w pracy w wysokości 1,5, a ludzie noszący mokasyny będą mieli średnio 0,05 obrażeń. A może prawdopodobieństwo zranienia osoby noszącej buty robocze wynosi 0,85, a prawdopodobieństwo zranienia osoby noszącej mokasyny to .1.

Jeśli losowo wybiorę osobę z populacji i powiem, że ta osoba ma na sobie buty robocze, i zaoferuję ci równy zakład pieniężny na to, czy w ubiegłym roku doznał urazu w miejscu pracy, czy wziąłbyś zakład? Cóż, postawiłbyś zakład, gdybyś mógł postawić stronę, która doznała kontuzji. ​​85% czasu wygrywasz, a dostajesz nawet pieniądze.

Chodzi o to, że wiedząc, że informacje dostarczają nam informacji o tym, czy mogą doznawać obrażeń w miejscu pracy. Buty nie mają z tym nic wspólnego, w rzeczywistości buty robocze zapobiegają obrażeniom. Ale ta myląca zmienna tutaj to rodzaj pracy, która idzie w parze z workbootami. A może inne rzeczy, takie jak osoba, być może bardziej lekkomyślna.


6

Wyrażenie „korelacja nie oznacza związku przyczynowego” zostaje przerzucone. (Jak napisał Cohen: „to strasznie duża wskazówka”.) Rozbiliśmy to zdanie na studentów ze względu na uprzedzenia właściwe ludzkiemu umysłowi. Kiedy słyszysz, że „wskaźnik przestępczości jest skorelowany ze wskaźnikiem ubóstwa” lub coś w tym rodzaju, nie możesz nie myśleć, że oznacza to, że ubóstwo powoduje przestępstwo. Ludzie przyjmują to naturalnie, ponieważ tak działa umysł. Używamy tego wyrażenia w kółko, mając nadzieję na przeciwdziałanie temu. Jednak po przyswojeniu sobie tego pojęcia wyrażenie traci większość swojej wartości i czas przejść do bardziej wyrafinowanego zrozumienia.

Kiedy istnieje korelacja między dwiema zmiennymi, istnieją dwie możliwości: wszystko to jest zbiegiem okoliczności lub istnieje jakiś wzór przyczynowy w pracy. Nazywanie wzorca na świecie zbiegiem okoliczności jest strasznym objaśnieniem i prawdopodobnie powinno być ostatecznością. To pozostawia przyczynowość. Problem polega na tym, że nie znamy natury tego wzorca przyczynowego. Może być tak, że ubóstwo powoduje przestępczość, ale może być również, że przestępstwo powoduje ubóstwo (np. Ludzie nie chcą mieszkać w obszarze o wysokiej przestępczości, więc się wyprowadzają, a wartości nieruchomości spadają itp.). Możliwe też, że istnieje jakaś trzecia zmienna lub grupa zmiennych, które powodują zarówno przestępczość, jak i ubóstwo, ale w rzeczywistości nie ma bezpośredniegozwiązek przyczynowy między przestępczością a ubóstwem (znany jako model „wspólnej przyczyny”). Jest to szczególnie szkodliwe, ponieważ w modelu statystycznym wszystkie inne źródła zmienności są zwinięte w składniku błędu zmiennej zależnej. W rezultacie zmienna niezależna jest skorelowana z (powodowanym przez) terminem błędu, co prowadzi do problemu endogeniczności . Problemy te są bardzo trudne i nie należy ich lekceważyć. Niemniej jednak nawet w tym scenariuszu ważne jest, aby uznać, że w pracy istnieje rzeczywista przyczynowość.

Krótko mówiąc, kiedy widzisz korelację, powinieneś pomyśleć, że prawdopodobnie istnieje gdzieś jakiś związek przyczynowy , ale że nie znasz natury tego wzorca przyczynowego.


4

Myślałem, że mam wiedzę na temat tych rzeczy, ale dopiero w zeszłym miesiącu szukałem słowa „sugeruj” w słowniku i stwierdziłem, że ma on dwa uderzająco różne znaczenia. 1. Zaproponuj i 2. Koniecznie. (!) Korelacja rzadko wymaga związku przyczynowego, ale z pewnością może to sugerować. Jak wskazuje @EpiGrad, jest to konieczny, ale niewystarczający warunek ustalenia związku przyczynowego.

Z biegiem czasu, miejmy nadzieję, że znajdziemy środek między postrzeganiem korelacji jako ostateczności i tak całkowicie bezużytecznej. I przy interpretacji wyników korelacyjnych bierze się pod uwagę wiedzę dotyczącą przedmiotu / dziedziny / treści. Niewiele osób kwestionuje istnienie co najmniej jakiegoś związku przyczynowego podczas oglądania opisywanych wyników sprzedaży i reklamy. Ale zawsze dobrze jest pozostać otwartym na inne możliwości, inne zmienne, które mogą przynajmniej częściowo wyjaśnić zaobserwowany związek. Odczyty dotyczące mylących zmiennych, ważności i tym podobnych opłacają się dzięki dużym dywidendom. Na przykład stary klasyczny quasi-eksperyment Cooka i Campbella ma dobrą sekcję dotyczącą ważności i zagrożeń dla ważności.


1
Jak wskazałem na @EpiGrad, korelacja nie jest koniecznym warunkiem przyczynowości. W analizie danych istnieje szeroko rozpowszechnione pojęcie, że związek między zmiennymi zawsze odnosi się do związku monotonicznego, co jest domyślnie zakładane, sugerując, że korelacja jest niezbędnym warunkiem przyczynowości.
Makro

1
Słusznie. Powiedzmy zatem, że „powiązanie statystyczne” jest konieczne.
rolando2,

2

Współczynnik korelacji, podobnie jak inne miary powiązania, jest przydatny, jeśli chcesz wiedzieć, ile znajomości wartości X ma wartość informacyjną na temat wartości Y. Różni się to od wiedzy, czy gdybyś ustawił X na określoną wartość, co wartość Y, którą byś otrzymał (co jest istotą alternatywnej interpretacji związku przyczynowego).

Niemniej jednak w wielu kontekstach (np. Prognozy) wnioski oparte na korelacji byłyby cenne same w sobie. Żółte zęby są skorelowane z rakiem płuc (ponieważ oba są prawdopodobnie spowodowane rakiem). Między nimi nie ma związku przyczynowego: wybielanie zębów nie wyleczy raka płuca. Ale jeśli potrzebujesz szybkiego testu przesiewowego w celu wykrycia raka płuc, sprawdzenie żółtych zębów może być dobrym pierwszym krokiem.

Innym pytaniem jest to, czy współczynnik korelacji jest najlepszą dostępną miarą skojarzenia, ale myślę, że pytanie dotyczy bardziej wartości znajomości związku przyczynowego.

Btw nie tylko korelacja nie jest wystarczającym dowodem związku przyczynowego, ale także nie jest konieczna. Dwie zmienne mogą być powiązane przyczynowo, ale nie wykazują korelacji w żadnym konkretnym zbiorze danych (np. Z powodu błędu selekcji lub pomyłek).


1

sama korelacja nie ma większego zastosowania - więc po co „JEST” użyteczne?

Nie zgadzam się z tym wyrażeniem, korelacja pozwala poznać poziom powiązania między 2 zmiennymi. Przydaje się wtedy, gdy próbuje się wyjaśnić związek między takimi zmiennymi. Z drugiej strony (jak napisał Macro) korelacja nie jest koniecznym warunkiem przyczynowości, jednak wystarczy wyjaśnić poziom powiązania. Ponadto możesz przetestować niezależność zmiennych, ale korelacja może dać ci inną przydatną informację, współczynnik determinacji.

Niemniej jednak analityk musi znać dziedzinę, aby móc wyjaśnić rodzaj relacji.


Nie jestem pewien, co przez to rozumiesz:Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
Dr

Miałem na myśli: „możesz przetestować niezależność zmiennych”, ale w każdym razie, nawet jeśli nie testujesz niezależności, informacji o korelacji i cewce. determinacji są „przydatne” do zrozumienia i wyjaśnienia rodzaju zależności między zmiennymi.
Jose Zubcoff,

1

Myślę, że gromadzenie danych i projektowanie badań może również odgrywać rolę w odpowiedzi na to pytanie. Nie zaprojektujesz badania i nie zgromadzisz zestawu danych zupełnie dla siebie nieistotnych, nawet w badaniach obserwacyjnych. Dlatego „korelacja nie oznacza związku przyczynowego” może być uzasadniona. Mimo że nie jest to związek przyczynowy, może istnieć związek związany ze stowarzyszeniem.

Jeśli jednak mówisz o dwóch zestawach danych całkowicie nieistotnych, ale nadal chcesz użyć korelacji do wyjaśnienia związku i związku przyczynowego, może to być nieodpowiednie. Na przykład, jeśli wszystkie dwa zbiory danych mają tendencję spadkową, na przykład sprzedaż lodów i liczbę małżeństw, współczynnik korelacji może być bardzo wysoki. Ale czy trzeba rozumieć stowarzyszenie?

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.