Jak suma dwóch zmiennych może wyjaśnić większą wariancję niż poszczególne zmienne?

13

Dostaję trochę kłopotliwych wyników dla korelacji sumy z trzecią zmienną, gdy dwa predyktory są ujemnie skorelowane. Co powoduje te kłopotliwe wyniki?

Przykład 1: Korelacja między sumą dwóch zmiennych a trzecią zmienną

Rozważ wzór 16.23 na stronie 427 tekstu Guildforda z 1965 r., Pokazany poniżej.

Zakłopotanie: jeśli obie zmienne korelują .2 z trzecią zmienną i korelują -.7 ze sobą, formuła daje wartość .52. W jaki sposób korelacja sumy z trzecią zmienną może wynosić 0,52, jeśli każda z dwóch zmiennych koreluje tylko .2 z trzecią zmienną?

Przykład 2: Jaka jest wielokrotna korelacja między dwiema zmiennymi a trzecią zmienną?

Rozważ wzór 16.1 na stronie 404 tekstu Guildforda z 1965 r. (Pokazany poniżej).

Niepokojące odkrycie: ta sama sytuacja. Jeśli obie zmienne korelują .2 z trzecią zmienną i korelują -.7 ze sobą, formuła daje wartość .52. W jaki sposób korelacja sumy z trzecią zmienną może wynosić 0,52, jeśli każda z dwóch zmiennych koreluje tylko .2 z trzecią zmienną?

Próbowałem szybkiej małej symulacji Monte Carlo, która potwierdza wyniki formuł Guilforda.

Ale jeśli każdy z dwóch predyktorów przewiduje 4% wariancji trzeciej zmiennej, w jaki sposób ich suma przewiduje 1/4 wariancji?

Źródło: Fundamental Statistics in Psychology and Education, 4th ed., 1965.

WYJAŚNIENIE

Sytuacja, z którą mam do czynienia, polega na przewidywaniu przyszłych wyników poszczególnych osób na podstawie pomiaru ich umiejętności.

Dwa poniższe diagramy Venna pokazują moje rozumienie sytuacji i mają na celu wyjaśnienie mojego zdziwienia.

Ten diagram Venna (ryc. 1) odzwierciedla zerowy rząd r = .2 między x1 i C. W moim polu istnieje wiele takich zmiennych predykcyjnych, które skromnie przewidują kryterium.

Ten diagram Venna (ryc. 2) odzwierciedla dwa takie predyktory, x1 i x2, każdy przewidujący C przy r = .2 i dwa predyktory ujemnie skorelowane, r = - .7.

Nie potrafię sobie wyobrazić związku między dwoma predyktorami r = .2, które sprawiłyby, że razem przewidywałyby 25% wariancji C.

Szukam pomocy w zrozumieniu związku między x1, x2 i C.

Jeśli (jak sugerują niektórzy w odpowiedzi na moje pytanie) x2 działa jak zmienna tłumiąca dla x1, to jaki obszar na drugim schemacie Venna jest tłumiony?

Jeśli konkretny przykład byłby pomocny, możemy uznać x1 i x2 za dwie ludzkie umiejętności, a C za 4 lata GPA na studiach, 4 lata później.

Mam problem z wyobrażeniem sobie, jak zmienna supresorowa może spowodować powiększenie wyjaśnionej 8% wariancji dwóch r = .2 rzędu zerowego i wyjaśnienie 25% wariancji C. Konkretny przykład byłby bardzo pomocną odpowiedzią.

correlation multiple-regression

— Joel W.
źródło

W statystykach obowiązuje stara zasada, że wariancja sumy zbioru zmiennych niezależnych jest równa sumie ich wariancji.

— Mike Hunter,

@DJohnson. Jak twój komentarz odnosi się do zadanego pytania?

— Joel W.,

Przepraszam, nie rozumiem pytania. Dla mnie jest oczywiste, jak to się odnosi. Poza tym jest to komentarz, który ani nie kwalifikuje się do nagrody, ani nie wymaga głębszego opracowania.

— Mike Hunter,

1

@DJohnson. Jak twój komentarz odnosi się do zadanego pytania? Dla mnie NIE jest oczywiste, jak to się odnosi.

— Joel W.,

2

Twoje pytanie o znaczenie N wyświetleń może uzyskać lepszą odpowiedź na stronie Meta CV.

— mdewey,

3

Może się to zdarzyć, gdy oba predyktory zawierają duży czynnik uciążliwości, ale z przeciwnym znakiem, więc gdy je dodasz, uciążliwość anuluje się i otrzymasz coś znacznie bliższego trzeciej zmiennej.

Zilustrujmy to jeszcze bardziej ekstremalnym przykładem. Załóżmy że są niezależnymi standardowymi zmiennymi losowymi. Teraz pozwól $X, Y \sim N(0,1)$

$A = X$

$B = -X + 0.00001Y$

Powiedzmy, że jest twoją trzecią zmienną, to twoje dwa predyktory, a to ukryta zmienna, o której nic nie wiesz. Korelacja A z Y wynosi 0, a korelacja B z Y jest bardzo mała, zbliżona do 0,00001. * Ale korelacja z wynosi 1. $Y$ $A, B$ $X$ $A+B$ $Y$

* Istnieje drobna korekta dla odchylenia standardowego B, które jest nieco większe niż 1.

— Paweł
źródło

Czy taka sytuacja kiedykolwiek pojawia się w naukach społecznych?

— Joel W.

1

W żargonie nauk społecznych jest to po prostu silny efekt, w szczególny sposób zakłócający słaby efekt. Nie jestem ekspertem od nauk społecznych, ale nie mogę sobie wyobrazić, że trudno znaleźć przykład tego.

— Paul

Czy masz jakieś przykłady z nauk fizycznych?

— Joel W.

Czy relację, którą opisujesz, można pokazać na diagramie Venna?

— Joel W.

Osobiście nie uważam, żeby diagram Venna był pomocny, ale jeśli musisz, narysowałbym B jako prostokąt, a następnie podzieliłem go na dwa pod-prostokąty, duży gruby A i mały chudy Y. Podsumowanie A i B jest anulowanie dużej części A i pozostawienie małej części Y.

— Paul

10

Pomocne może być wyobrażenie sobie trzech zmiennych jako liniowych kombinacji innych zmiennych nieskorelowanych. Aby poprawić nasz wgląd, możemy przedstawić je geometrycznie, pracować z nimi algebraicznie i dostarczać opisy statystyczne według własnego uznania.

$X$ $Y$ $Z$

U = X, V = (- 7 X + \sqrt{51} Y) / 10; W = (\sqrt{3} X + \sqrt{17} Y + \sqrt{55} Z) / \sqrt{75} .

$U = X,\quad V = (- 7 X + \sqrt{51}Y )/10;\quad W=(\sqrt{3} X + \sqrt{17} Y + \sqrt{55}Z)/\sqrt{75}.$

Wyjaśnienie geometryczne

Poniższa grafika przedstawia wszystko, czego potrzebujesz, aby zrozumieć relacje między tymi zmiennymi.

$U$ $V$ $W$ $U+V$ $X,Y,Z$ $U$ $V$ $U$ $V$ $W$ $U$ $V$ $W$ , tworząc kąt ostry (około 45 stopni): istnieje nieoczekiwanie wysoka dodatnia korelacja.

Obliczenia algebraiczne

Dla tych, którzy chcą więcej rygorystyczności, oto algebra do tworzenia kopii zapasowej geometrii w grafice.

$U$ $V$ $W$

Cor (U, V) = Cov (U, V) = E (U V) = E (\sqrt{51} X Y - 7 X^{2}) / 10 = - 7 / 10 = - 0.7

$\operatorname{Cor}(U, V) = \operatorname{Cov}(U,V) = \mathbb{E}(UV) = \mathbb{E}(\sqrt{51}XY- 7 X^2)/10 = -7/10 = -0.7$

$X$ $Y$

Cor (U, W) = \sqrt{3 / 75} = 1 / 5 = 0.2

$\operatorname{Cor}(U,W) = \sqrt{3/75} = 1/5 = 0.2$

i

Cor (V, W) = (- 7 \sqrt{3} + \sqrt{15} \sqrt{17}) / (10 \sqrt{75}) = 1 / 5 = 0.2.

$\operatorname{Cor}(V,W) = (-7\sqrt{3} + \sqrt{15}\sqrt{17})/(10\sqrt{75}) = 1/5 = 0.2.$

Wreszcie,

Cor (U + V, W) = \frac{Cov (U + V, W)}{\sqrt{Var (U + V) Var (W)}} = \frac{1 / 5 + 1 / 5}{\sqrt{Var (U) + Var (V) + 2 Cov (U, V)}} = \frac{2 / 5}{\sqrt{1 + 1 - 2 (7 / 10)}} = \frac{2 / 5}{\sqrt{3 / 5}} \approx 0.5164.

$\operatorname{Cor}(U+V,W) = \frac{\operatorname{Cov}(U+V,W)}{\sqrt{\operatorname{Var}(U+V)\operatorname{Var}(W)}} = \frac{1/5 + 1/5}{\sqrt{\operatorname{Var}(U) + \operatorname{Var}(V) + 2\operatorname{Cov}(U,V)}} = \frac{2/5}{\sqrt{1 + 1 - 2(7/10)}} = \frac{2/5}{\sqrt{3/5}}\approx 0.5164.$

W konsekwencji te trzy zmienne mają pożądane korelacje.

Wyjaśnienie statystyczne

Teraz widzimy, dlaczego wszystko działa tak, jak działa:

$U$ $V$ $-7/10$ $V$ $U$ $Y$
$U$ $W$ $1/5$ $W$ $U$ $Y$ $Z$
$V$ $W$ $1/5$ $W$ $\sqrt{75}$
- $\sqrt{17}Y$ $V$
- $-\sqrt{3}X$ $V$
- $Z$
$U+V = (3X + \sqrt{51}Y)/10 = \sqrt{3/100}(\sqrt{3}X + \sqrt{17}Y)$ $W$ $W$ $Z$

— Whuber
źródło

Czy istnieje sposób, aby to pokazać na schemacie Venna? Pomimo matematyki nadal nie widzę logiki sumy dwóch zmiennych wyjaśniającej 25 +% wariancji trzeciej zmiennej, gdy każda z dwóch zmiennych wchodzących w skład sumy przewiduje, ale 4% wariancji tej trzeciej zmiennej . Jak 8% wyjaśnionej wariancji może stać się 25% wyjaśnionej wariancji, dodając dwie zmienne?

— Joel W.,

Czy istnieją również praktyczne zastosowania tego dziwnego zjawiska?

— Joel W.,

Jeśli diagram Venna jest nieodpowiedni do przedstawienia wyjaśnionej wariancji, czy możesz mi powiedzieć, dlaczego jest nieodpowiedni?

— Joel W.,

@JoelW. Ładna odpowiedź dotyczy tego, dlaczego diagramy Venna nie są w stanie zilustrować tego zjawiska (pod koniec odpowiedzi): stats.stackexchange.com/a/73876/5829

— Jake Westfall

Joel, Cohenowie wykorzystali diagram podobny do Venna, który nazwali „Ballantine” do analizy wariancji. Zobacz na przykład ww2.amstat.org/publications/jse/v10n1/kennedy.html . Jeśli chodzi o zastosowania praktyczne, powinieneś zadać przeciwne pytanie: jakie zastosowania wariancji i rozkładów wariancji nie są praktyczne?

— whuber

5

Kolejny prosty przykład:

$z \sim \mathcal{N}(0,1)$
$x_1 \sim \mathcal{N}(0,1)$
$x_2 = z - x_1$ $z = x_1 + x_2$

Następnie:

$\mathrm{Corr}(z, x_1) = 0$
$\mathrm{Corr}(z, x_2) \approx .7$
$\mathrm{Corr}(z, x_1 + x_2) = 1$

Geometrycznie dzieje się tak jak w grafice WHubera. Koncepcyjnie może to wyglądać mniej więcej tak:

$E[XY]$

$x_1$ $z$ $\theta$

$\mathrm{Corr}(z, x_1) = \cos \theta_{zx_1} = 0 \quad \quad \theta_{z,x_1} = \frac{\pi}{2}$
$\mathrm{Corr}(z, x_2) = \cos \theta_{zx_2} \approx .7 \quad \quad \theta_{z,x_2} = \frac{\pi}{4}$
$\mathrm{Corr}(z, x_1 + x_2) = \cos \theta_{z,x_1+x_2} = 1 \quad \quad \theta_{z, x_1 + x_2} = 0$

$z$ $-x_1$ $x_2$ $z$ $-x_1$ $x_1$ $x_2$ $-x_1$ $x_2$

— Matthew Gunn
źródło

(+1) Niezły przykład!

— user795305

Proszę wyjaśnić przesłanki swojej odpowiedzi. Po ustawieniu z = x1 + x2, dlaczego powiedzieć „następnie Corr (z, x1) = 0”? Czy mówisz, że Corr (z, x1) = 0 wynika z pierwszej instrukcji Let, czy też korelacja zera jest dodatkowym założeniem? Jeśli jest to dodatkowe założenie, dlaczego sytuacja w pierwotnym pytaniu wymaga tego dodatkowego założenia?

— Joel W.,

z

$z$

x_{1}

$x_1$

z

$z$

x_{1}

$x_1$

z - x_{1}

$z - x_1$

x_{2}

$x_2$

@MatthewGunn. Twój trzeci Niech mówi z = x1 + x2. Wydaje się, że narusza to twoje pierwsze dwa zdania, które mówią, że z i x1 są niezależne.

— Joel W.,

1

z = x_{1} + x_{2}

$z = x_1 + x_2$

z

$z$

x_{1}

$x_1$

3

Adresowanie komentarza:

Pomimo matematyki nadal nie widzę logiki sumy dwóch zmiennych wyjaśniającej 25 +% wariancji trzeciej zmiennej, gdy każda z dwóch zmiennych wchodzących w skład sumy przewiduje, ale 4% wariancji tej trzeciej zmiennej . Jak 8% wyjaśnionej wariancji może stać się 25% wyjaśnionej wariancji, dodając dwie zmienne?

Problemem wydaje się tutaj terminologia „wyjaśniona wariancja”. Podobnie jak wiele terminów w statystykach, wybrano to, aby brzmiało to tak, jakby znaczyło więcej niż w rzeczywistości.

$Y$

y = (6, 7, 4, 8, 9, 6, 6, 3, 5, 10)

$y = (6, 7, 4, 8, 9, 6, 6, 3, 5, 10)$

$U$ $Y$ $R$ $R$ $Y$

r = (- 20, - 80, 100, 90, 50, 70, 40, 30, 40, 60)

$r = (-20, -80, 100, 90, 50, 70, 40, 30, 40, 60)$

$U = R + 0.1Y$

u = (- 19.4, - 79.3, 100.4, 90.8, 50.9, 70.6, 40.6, 30.3, 40.5, 61.0)

$u = (-19.4, -79.3, 100.4, 90.8, 50.9, 70.6, 40.6, 30.3, 40.5, 61.0)$

$V=-R+0.1Y$

v = (20.6, 80.7, - 99.6, - 89.2, - 49.1, - 69.4, - 39.4, - 29.7, - 39.5, - 59.0)

$v = (20.6, 80.7, -99.6, -89.2, -49.1, -69.4, -39.4, -29.7, -39.5, -59.0)$

$U$ $V$ $Y$ $r$ $0.2Y$ $Y$

$Y$ $U$ $U$ $R$ $V$ $R$ $Y$ $U+V$

$A$ $B$ $B$ $A$

— Flądrarz
źródło

@ naught101 stworzył kilka liczb ilustrujących twoje zmienne, Flądry. Możesz sprawdzić, czy dołączenie ich do Ciebie przemawia.

— gung - Przywróć Monikę

Jasne, edytuj to, jak chcesz. Właściwie nie mogę zobaczyć imgura w pracy, ale jestem pewien, że wszystko będzie dobrze!

— Flądrowiec

Odrzuciłem sugestię, b / c Nie widziałem, że skontaktował się z tobą tutaj. Możesz to jednak zatwierdzić, przechodząc do sugerowanej kolejki edycji.

— gung - Przywróć Monikę

Podany przez ciebie przykład jest interesujący, jeśli jest starannie wykonany, ale przedstawiona przeze mnie sytuacja jest bardziej ogólna (z liczbami nie starannie dobranymi) i oparta na 2 zmiennych N (0,1). Nawet jeśli zmienimy terminologię z „wyjaśnia” na „udostępniona”, pozostaje pytanie. W jaki sposób można połączyć 2 zmienne losowe, każdą z 4% dzieloną wariancją z trzecią zmienną, w postaci prostej sumy, która zgodnie ze wzorem ma 25% wspólnej wariancji z trzecią zmienną? Ponadto, jeśli celem jest przewidywanie, czy istnieją jakieś praktyczne zastosowania tego dziwnego wzrostu dzielonej wariancji?

— Joel W.,

Cóż, gdziekolwiek w elektronice, kiedy masz (głośny hałas + słaby sygnał) + (-głośny hałas) = słaby sygnał, zastosowałbyś to. Na przykład słuchawki z redukcją szumów.

— Flądrowiec