Jak rozumieć formułę współczynnika korelacji?

Czy ktoś może mi pomóc zrozumieć formułę korelacji Pearsona? próbka $r$ = średnia z produktów standardowych punktów zmiennych i . $X$ $Y$

Rozumiem, dlaczego muszą znormalizować i , ale jak zrozumieć produkty obu wyników Z? $X$ $Y$

Ta formuła jest również nazywana „współczynnikiem korelacji produktu z momentem”, ale jakie jest uzasadnienie działania produktu? Nie jestem pewien, czy moje pytanie było jasne, ale chcę po prostu zapamiętać formułę intuicyjnie.

correlation descriptive-statistics pearson-r

— Aaron Lu
źródło

Warto przeczytać artykuł „Trzynaście sposobów spojrzenia na współczynnik korelacji” (Rodgers i Nicewander 1988). Jak sugeruje tytuł, omawia trzynaście różnych intuicyjnych poglądów na współczynnik korelacji. Więc mam nadzieję, że przynajmniej jeden kliknie :)

— połowie przebiegu

13 sposobów można znaleźć tutaj

— Dimitriy V. Masterov,

14-gi sposób zrozumieć korelację (w zakresie produktów z wynikami Z) sprowadza się do zrozumienia kowariancji znormalizowanych zmiennych, jak pokazano na stats.stackexchange.com/questions/18058/... .

— whuber

... a 15. sposób wykorzystuje koła pokazane na stronie stats.stackexchange.com/a/46508/919 : dopasowanie co najmniej kwadratów minimalizuje całkowitą powierzchnię okręgów (istnieją co najmniej dwa sposoby, aby to zrobić, gdy punkty a nie dokładnie w linii), a współczynnik korelacji jest wówczas ich średnim obszarem (gdy obie zmienne są znormalizowane).

— whuber

Możliwy duplikat Co to jest kowariancja w prostym języku?

— kjetil b halvorsen

W komentarzach zasugerowano 15 sposobów zrozumienia współczynnika korelacji:

13 sposobów omówionych w artykule Rodgersa i Nicewandra (The American Statistician, luty 1988)

Funkcja surowych wyników i środków,

$r = \frac{\sum (X_{i} - \bar{X}) (Y_{i} - \bar{Y})}{\sqrt{\sum {(X_{i} - \bar{X})}^{2} {(Y_{i} - \bar{Y})}^{2}}} .$ $r =\frac{\sum\left(X_i - \bar{X}\right)\left(Y_i - \bar{Y}\right)}{\sqrt{\sum\left(X_i-\bar{X}\right)^2\left(Y_i-\bar{Y}\right)^2}}.$
Standaryzowana kowariancja,

$r = s_{X Y} / (s_{X} s_{Y})$ $r = s_{XY}/(s_Xs_Y)$
gdzie jest próbka kowariancji i i są przykładowymi odchyleń standardowych. $s_{XY}$ $s_X$ $s_Y$
Znormalizowane nachylenie linii regresji,

$r = b_{Y \cdot X} \frac{s_{X}}{s_{Y}} = b_{X \cdot Y} \frac{s_{Y}}{s_{X}},$ $r = b_{Y\cdot X}\frac{s_X}{s_Y} = b_{X\cdot Y}\frac{s_Y}{s_X},$
gdzie i są nachyleniami linii regresji. $b_{Y\cdot X}$ $b_{X \cdot Y}$
Średnia geometryczna dwóch nachyleń regresji,

$r = \pm \sqrt{b_{Y \cdot X} b_{X \cdot Y}} .$ $r = \pm \sqrt{b_{Y\cdot X}b_{X\cdot Y}}.$
Pierwiastek kwadratowy ze stosunku dwóch wariancji (uwzględniony odsetek proporcji),

$r = \sqrt{\frac{\sum {(Y_{i} - \hat{Y_{i}})}^{2}}{\sum {(Y_{i} - \bar{Y})}^{2}}} = \sqrt{\frac{S S_{R E G}}{S S_{T O T}}} = \frac{s_{\hat{Y}}}{s_{Y}} .$ $r = \sqrt{\frac{\sum\left(Y_i - \hat{Y_i}\right)^2}{\sum\left(Y_i-\bar{Y}\right)^2}} = \sqrt{\frac{SS_{REG}}{SS_{TOT}}} = \frac{s_\hat{Y}}{s_Y}.$
Średni efekt krzyżowy znormalizowanych zmiennych,

$r = \sum z_{X} z_{Y} / N .$ $r = \sum z_X z_Y / N.$
Funkcja kąta między dwiema znormalizowanymi liniami regresji. Dwie linie regresji ( względem i $Y$ $X$ vs. ) są symetryczne względem przekątnej. Niech kąt między dwiema liniami będzie . Następnie $X$ $Y$ $\beta$

$r = \sec (β) \pm \tan (β) .$ $r = \sec(\beta)\pm \tan(\beta).$
Funkcja kąta między dwoma wektorami zmiennymi,

$r = \cos (α) .$ $r = \cos(\alpha).$
Przeskalowana wariancja różnicy między znormalizowanymi wynikami. Letting $z_Y - z_X$ będzie różnicą między znormalizowanymi zmiennymi i dla każdej obserwacji, $X$ $Y$

$r = 1 - s_{(z_{Y} - z_{X})}^{2} / 2 = s_{(z_{Y} + z_{X})}^{2} / 2 - 1.$ $r = 1 - s^2_{(z_Y - z_X)} / 2 = s^2_{(z_Y+z_X)}/2 - 1.$
Oszacowano na podstawie reguły „balon”,

$r \approx \sqrt{1 - (h / H)^{2}}$ $r \approx \sqrt{1 - (h/H)^2}$
gdzie jest pionowym zakresem całego $H$ $X-Y$ wykresu rozrzutu a jest zakresem przez „środek rozkładu na osi ” (to znaczy przez punkt środkowy ). $h$ $X$
W związku z dwuwymiarowymi elipsami izokoncentracji

$r = \frac{D^{2} - d^{2}}{D^{2} + d^{2}}$ $r = \frac{D^2 - d^2}{D^2 + d^2}$
gdzie i $D$ są odpowiednio długością osi głównej i pomocniczej. równa się również nachyleniu stycznej linii izokonturu (we współrzędnych znormalizowanych) w punkcie, w którym kontur przecina oś pionową. $d$ $r$
Funkcja statystyki testu z zaprojektowanych eksperymentów,

$r = \frac{t}{\sqrt{t^{2} + n - 2}}$ $r = \frac{t}{\sqrt{t^2 + n-2}}$
gdzie jest statystyką testową w niezależnym teście próbnym dla zaprojektowanego eksperymentu z dwoma warunkami leczenia (oznaczonymi jako ), a jest łączną całkowitą liczbą obserwacji w dwóch grupach leczenia. $t$ $t$ $X=0, 1$ $n$
Stosunek dwóch środków. Załóżmy dwuwymiarową normalność i standaryzujemy zmienne. Wybierz jakąś dowolnie dużą wartość z . Następnie $X_c$ $X$

$r = \frac{E (Y | X > X_{c})}{E (X | X > X_{c})} .$ $r = \frac{\mathbb{E}(Y\,|\,X\gt X_c)}{\mathbb{E}(X\,|\,X\gt X_c)}.$

(Większość z nich jest dosłowna, z bardzo niewielkimi zmianami w niektórych zapisach).

Niektóre inne metody (być może oryginalne dla tej witryny) są

Przez kręgi. jest nachyleniem linii regresji we współrzędnych znormalizowanych. Linię tę można scharakteryzować na różne sposoby, w tym geometryczne, na przykład minimalizując całkowitą powierzchnię okręgów narysowanych między linią a punktami danych na wykresie rozrzutu. $r$
Kolorując prostokąty. Kowariancję można ocenić, kolorując prostokąty na wykresie rozrzutu (tzn. Sumując podpisane obszary prostokątów). Gdy wykres rozrzutu jest znormalizowany, ilość netto koloru - całkowity błąd podpisany - wynosi . $r$

— whuber
źródło

Dziękuję, @Avraham, za próbę doprowadzenia tego wątku bez odpowiedzi do pewnego zamknięcia poprzez opublikowanie tutaj odpowiedzi.

— whuber