Zależność między współczynnikami korelacji phi, Matthewsa i Pearsona

13

Czy współczynniki korelacji phi i Matthewsa to ta sama koncepcja? W jaki sposób są one powiązane lub równoważne ze współczynnikiem korelacji Pearsona dla dwóch zmiennych binarnych? Zakładam, że wartości binarne to 0 i 1.

Korelacja Pearsona między dwiema zmiennymi losowymi Bernoulliego i wynosi: $x$ $y$

ρ = \frac{E [(x - E [x]) (y - E [y])]}{\sqrt{Var [x] Var [y]}} = \frac{E [x y] - E [x] E [y]}{\sqrt{Var [x] Var [y]}} = \frac{n_{11} n - n_{1 ∙} n_{∙ 1}}{\sqrt{n_{0 ∙} n_{1 ∙} n_{∙ 0} n_{∙ 1}}}

$\rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}}$

gdzie

E [x] = \frac{n_{1 ∙}}{n} Var [x] = \frac{n_{0 ∙} n_{1 ∙}}{n^{2}} E [y] = \frac{n_{∙ 1}}{n} Var [y] = \frac{n_{∙ 0} n_{∙ 1}}{n^{2}} E [x y] = \frac{n_{11}}{n}

$\mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] = \frac{n_{\bullet 1}}{n} \quad \text{Var}[y] = \frac{n_{\bullet 0}n_{\bullet 1}}{n^2} \quad \mathbb{E}[xy] = \frac{n_{11}}{n}$

Współczynnik Phi z Wikipedii:

W statystykach współczynnik phi (określany również jako „średni kwadratowy współczynnik kontyngencji” i oznaczony przez lub ) jest miarą asocjacji dwóch zmiennych binarnych wprowadzonych przez Karla Pearsona. Miara ta jest podobna do współczynnika korelacji Pearsona w jej interpretacji. W rzeczywistości współczynnik korelacji Pearsona oszacowany dla dwóch zmiennych binarnych zwróci współczynnik phi ... $\phi$ $r_\phi$

Jeśli mamy tabelę 2 × 2 dla dwóch zmiennych losowych i $x$ $y$

Phi współczynnik, który opisuje związek z i jest $x$ $y$
$ϕ = \frac{n_{11} n_{00} - n_{10} n_{01}}{\sqrt{n_{1 ∙} n_{0 ∙} n_{∙ 0} n_{∙ 1}}}$ $\phi = \frac{n_{11}n_{00} - n_{10}n_{01}}{\sqrt{n_{1\bullet}n_{0\bullet}n_{\bullet0}n_{\bullet1}}}$

Współczynnik korelacji Matthewsa z Wikipedii:

Współczynnik korelacji Matthewsa (MCC) można obliczyć bezpośrednio z macierzy zamieszania, korzystając ze wzoru:
$MCC = \frac{T P \times T N - F P \times F N}{\sqrt{(T P + F P) (T P + F N) (T N + F P) (T N + F N)}}$ $\text{MCC} = \frac{ TP \times TN - FP \times FN } {\sqrt{ (TP + FP) (TP + FN) (TN + FP) (TN + FN) } }$
W tym równaniu TP jest liczbą prawdziwie pozytywnych, TN liczbą prawdziwych negatywów, FP liczbą fałszywych trafień, a FN liczbą fałszywie ujemnych. Jeśli którakolwiek z czterech sum w mianowniku wynosi zero, mianownik można dowolnie ustawić na jeden; skutkuje to zerowym współczynnikiem korelacji Matthewsa, który można wykazać jako prawidłową wartość graniczną.

— Tim
źródło

14

Tak, są takie same. Współczynnik korelacji Matthewsa jest tylko szczególnym zastosowaniem współczynnika korelacji Pearsona do tabeli dezorientacji.

Tabela awaryjna to tylko podsumowanie podstawowych danych. Możesz przekonwertować go z liczb pokazanych w tabeli awaryjnej na jeden wiersz na obserwacje.

Rozważ przykładową macierz nieporozumień zastosowaną w artykule w Wikipedii z 5 prawdziwymi pozytywami, 17 prawdziwymi negatywami, 2 fałszywymi pozytywami i 3 fałszywymi negatywami

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

— Peter Ellis
źródło

Dzięki, Peter! Matematycznie, dlaczego phi i Mathew są równoważne Pearsonowi dla dwóch binarnych zmiennych losowych?

— Tim

Jeśli weźmiesz definicję korelacji Pearsona i manipulujesz nią, aby odnosiła się ona raczej do zliczeń niż do sum różnic między indywidualnymi obserwacjami a średnimi, otrzymasz formułę Matthewsa. Tak naprawdę tego nie zrobiłem, ale musi to być dość proste.

— Peter Ellis

2

Po pierwsze wystąpił błąd literowy w pytaniu: to nie ale raczej $\mathbb{E}[xy]$ $\displaystyle \frac{n_{\bullet 1}n_{1\bullet}}{n^2}$

\frac{n_{11}}{n} \times 1 \times 1 + \frac{n_{10}}{n} \times 1 \times 0 + \frac{n_{01}}{n} \times 0 \times 1 + \frac{n_{00}}{n} \times 0 \times 0 = \frac{n_{11}}{n}

$\frac{n_{11}}{n} \times 1 \times 1 + \frac{n_{10}}{n}\times 1 \times 0 + \frac{n_{01}}{n} \times 0 \times 1 + \frac{n_{00}}{n} \times 0 \times 0 = \frac{n_{11}}{n}$

Po drugie, kluczem do pokazania, że jest $\rho = \phi$

n_{11} n - n_{1 ∙} n_{∙ 1} = n_{11} (n_{01} + n_{10} + n_{11} + n_{00}) - (n_{11} + n_{10}) (n_{11} + n_{01}) = n_{11} n_{00} - n_{10} n_{01}

$n_{11} n - n_{1\bullet} n_{\bullet 1} = n_{11} (n_{01} + n_{10} + n_{11} + n_{00}) - (n_{11} + n_{10}) (n_{11} + n_{01}) \\ = n_{11} n_{00} - n_{10} n_{01}$

— ryan tt
źródło