Dlaczego współczynnik korelacji między zmiennymi losowymi X i XY wynosi zwykle 0,7

49

Zaczerpnięte z praktycznych statystyk badań medycznych, gdzie Douglas Altman pisze na stronie 285:

... dla dowolnych dwóch wielkości X i Y, X będzie skorelowane z XY. Rzeczywiście, nawet jeśli X i Y są próbkami liczb losowych, spodziewalibyśmy się, że korelacja X i XY wyniesie 0,7

Próbowałem tego w R i wydaje się, że tak jest:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Dlaczego? Jaka jest teoria?

correlation random-variable intuition

— nostock
źródło

Jaką część chcesz wyjaśnienia? Czy chcesz po prostu uproszczonego równania korelacji wynikającego ze znanej korelacji między xiy, a kowariancji między x i xy? A może po prostu chcesz wiedzieć, dlaczego w ogóle jest tu jakaś kowariancja?

— John

Czy to prawda dla każdego i ? Załóżmy, że i są nieskorelowane i niech . Podejrzewam, że nie będzie skorelowany z .

X

$X$

Y

$Y$

X

$X$

Z

$Z$

Y = X - Z

$Y=X-Z$

X

$X$

X - Y

$X-Y$

— Henry

69

Jeśli i są nieskorelowanymi zmiennymi losowymi o jednakowej wariancji , to mamy W konsekwencji $X$ $Y$ $\sigma^2$

\begin{aligned} var (X - Y) & = var (X) + var (- Y) \\ = var (X) + var (Y) \\ = 2 σ^{2}, \\ cov (X, X - Y) & = cov (X, X) - cov (X, Y) & bilinearity of covariance operator \\ = var (X) - 0 & 0 because X and Y are uncorrelated \\ = σ^{2} . \end{aligned}

$\begin{align} \operatorname{var}(X-Y) &= \operatorname{var}(X) + \operatorname{var}(-Y)\\ &= \operatorname{var}(X) + \operatorname{var}(Y)\\ &=2\sigma^2,\\ \operatorname{cov}(X, X-Y) &= \operatorname{cov}(X,X) - \operatorname{cov}(X,Y) & \text{bilinearity of covariance operator}\\ &= \operatorname{var}(X) - 0 & 0 ~\text{because}~X ~\text{and}~ Y ~\text{are uncorrelated}\\ &= \sigma^2. \end{align}$

ρ_{X, X - Y} = \frac{cov (X, X - Y)}{\sqrt{var (X) var (X - Y)}} = \frac{σ^{2}}{\sqrt{σ^{2} \cdot 2 σ^{2}}} = \frac{1}{\sqrt{2}} .

$\rho_{X,X-Y} = \frac{\operatorname{cov}(X, X-Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(X-Y)}}= \frac{\sigma^2}{\sqrt{\sigma^2\cdot2\sigma^2}} = \frac{1}{\sqrt{2}}.$ Kiedy więc znajdziesz przykładowa korelacja i dla dużego zestawu danych pobrane z populacji o tych właściwościach, która zawiera „liczby losowe” jako szczególny przypadek, wynik jest zwykle zbliżony do wartości korelacji populacji

\frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) ((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}{\sqrt{\sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} \sum_{i = 1}^{n} {((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}^{2}}}

$\frac{\sum_{i=1}^n\left(x_i - \bar{x}\right) \left((x_i-y_i) - (\bar{x}-\bar{y})\right)}{ \sqrt{\sum_{i=1}^n\left(x_i - \bar{x}\right)^2 \sum_{i=1}^n\left((x_i-y_i) - (\bar{x}-\bar{y})\right)^2}}$

x

$x$

x - y

$x-y$

{(x_{i}, y_{i}) : 1 \leq i \leq n}

$\{(x_i,y_i)\colon 1 \leq i \leq n\}$

\frac{1}{\sqrt{2}} \approx 0.7071 \dots

$\frac{1}{\sqrt{2}} \approx 0.7071\ldots$

— Dilip Sarwate
źródło

Czy mógłbyś wyjaśnić nieco więcej, jakcov(X,X)-cov(X,Y)=s^2

— nostock

5

cov (X, X) to inna nazwa dla var (X). cov (X, Y) = 0, ponieważ zakłada się, że X i Y są nieskorelowane (stąd kowariancja = 0).

— Dilip Sarwate,

58

Wyjaśnienie geometryczno-statystyczne.

Wyobraź sobie, że tworzysz wykres rozrzutu „na lewą stronę”, w którym podmiotami są osie, a zmienne i są punktami . Nazywa się to wykresem przestrzeni tematycznej (w przeciwieństwie do zwykłego wykresu zmiennej przestrzeni ). Ponieważ do wykreślenia są tylko 2 punkty, wszystkie wymiary w takim miejscu, z wyjątkiem dowolnych dwóch dowolnych wymiarów, które są w stanie obsłużyć 2 punkty plus początek, są zbędne i można je bezpiecznie upuścić. I tak zostaje nam samolot. Rysujemy strzałki wektora od początku do punktów: są to nasze zmienne i jako wektory w przestrzeni tematycznej danych. $n$ $2$ $X$ $Y$ $X$ $Y$

Teraz, jeśli zmienne zostały wyśrodkowane, wówczas w przestrzeni przedmiotowej cosinus kąta między ich wektorami jest ich współczynnikiem korelacji . Na poniżej wektory i są ortogonalne: ich . Brak korelacji był warunkiem wstępnym nakreślonym przez @Dilip w ich odpowiedzi. $X$ $Y$ $r=0$

Również w przypadku zmiennych wyśrodkowanych ich długości wektorowe w przestrzeni przedmiotowej są odchyleniami standardowymi . Na i są równej długości - równe wariancje były również warunkiem wstępnym @Dilip. $X$ $Y$

Aby narysować zmienną lub zmienną używamy po prostu dodawania lub odejmowania wektorów, o których zapomnieliśmy od czasów szkoły (przenieś wektor Y na koniec wektora X i odwróć kierunek w przypadku odejmowania - pokazuje to szara strzałka na zdjęciu - następnie narysuj wektor w miejscu, w którym wskazuje szara strzałka). $X-Y$ $X+Y$

Staje się bardzo jasne, że długość wektorów lub (odchylenie standardowe tych zmiennych) jest według twierdzenia Pitagorasa , a kąt między a lub wynosi 45 stopni, których cosinus - korelacja - wynosi $X-Y$ $X+Y$ $\sqrt{2\sigma^2}$ $X$ $X-Y$ $X+Y$ $0.707...$

wprowadź opis zdjęcia tutaj

— ttnphns
źródło

4

Duży +1 za podzielenie się tym podejściem.

— whuber

(+1) To bardzo fajny sposób na przedstawienie tego!

— Matt Krause,

Ahh ... zdjęcia! (+1) Dobra robota. :-)

— kardynał

11

Uważam, że tutaj również istnieje prosta intuicja oparta na symetrii. Ponieważ X i Y mają te same rozkłady i kowariancję 0, związek X ± Y z X powinien „wyjaśnić” połowę wariancji X ± Y; drugą połowę należy wyjaśnić za pomocą Y. Zatem R ² powinno wynosić 1/2, co oznacza, że R wynosi 1 / √2 ≈ 0,707.

— denn333
źródło

Wydaje się to być niezłą intuicją, ale zauważ, że jeśli , standardowym sposobem pisania byłoby , a nie co może mylić niektórych ludzi, nawet jeśli są algebraicznie równoważne.

r^{2} = \frac{1}{2}

$r^2=\frac 1 2$

r

$r$

\sqrt{1 / 2}

$\sqrt{1/2}$

1 / \sqrt{2}

$1/\sqrt 2$

— gung - Przywróć Monikę

Nie, to naprawdę nie jest bardziej standardowe. (Jeśli potrzebujesz dowodów, spójrz na najwyższą odpowiedź. 38 osób, które już na nią głosowały, nie spiera się z tym samym zapisem.)

— denn333

Jestem jednym z tych 38 ;-). Pytanie brzmi: co ktoś, kogo algebra jest dość słaba, będzie najłatwiejszy do naśladowania? Jeśli , łatwiej jest zauważyć, że .

r^{2} = 1 / 2

$r^2=1/2$

r = \sqrt{1 / 2}

$r=\sqrt{1/2}$

— gung - Przywróć Monikę

3

Oto prosty sposób na zastanowienie się, dlaczego w ogóle istnieje tutaj korelacja.

Wyobraź sobie, co się dzieje po odjęciu dwóch rozkładów. Jeśli wartość x jest niska, wówczas wartość średnia x - ybędzie niższa niż w przypadku, gdy wartość x jest wysoka. Wraz ze wzrostem x wzrasta x - yśrednio, a zatem dodatnia korelacja.

— Jan
źródło

4

Nie sądzę, aby twoje stwierdzenie było zawsze prawdziwe „Zawsze będzie korelacja między dwoma losowymi rozkładami, gdy istnieje związek matematyczny”. np. x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$

— curious_cat

4

@curious_cat: Lub, być może jeszcze bardziej sugestywny, porzuć ycałkowicie. :-)

— kardynał