Jak badać „korelację” między zmienną ciągłą a zmienną kategorialną?

19

Czym jest miarodajna miara „korelacji” do badania związku między tymi dwoma typami zmiennych?

W R, jak to zrobić?

r correlation categorical-data association-measure

— Luna
źródło

1

zanim zapytasz „jak się uczysz”, powinieneś znaleźć odpowiedź na „jak zdefiniować” :-) BTW, jeśli rzutujesz zmienną kategorialną na liczby całkowite, możesz już dokonać korelacji.

— Ciekawy

2

@Tomas, jeśli to zrobisz, szacunkowa siła związku zależy od tego, jak zdecydowałeś się oznaczyć punkty, co jest trochę przerażające :)

— Makro

@Macro, masz rację - kolejny solidny argument za dobrą definicją!

— Ciekawy

@Macro Chyba że źle zrozumiałem twój punkt widzenia, nie. Korelacja jest niewrażliwa na przekształcenia liniowe. Zatem cor (X, Y) = cor (a + bX, Y) dla skończonych a i b. Ponowne oznakowanie 0/1 jako 1/11 nie wpływa na korelacje przy użyciu tej zmiennej lub jej liniowej transformacji.

— Alexis

@Curious patrz mój komentarz do makra powyżej. I zauważ: (1) X <- sample(c(0,1),replace=TRUE,size=100)(2) Y <- X + rnorm(100,0.5)(3) corr(Y,X)(4) X <- 1 + 10*X(5) corr(X,Y): takie same wyniki dla obu korelacji!

— Alexis

19

Przez chwilę zignorujmy problem ciągły / dyskretny. Zasadniczo korelacja mierzy siłę liniowej zależności między zmiennymi, a wydaje się, że pytasz o alternatywny sposób pomiaru siły relacji. Być może zainteresuje Cię kilka pomysłów z teorii informacji . W szczególności myślę, że możesz chcieć spojrzeć na wzajemne informacje . Wzajemne informacje zasadniczo umożliwiają oszacowanie, ile znajomości stanu jednej zmiennej mówi o drugiej zmiennej. Myślę, że ta definicja jest bliższa temu, co większość ludzi ma na myśli, kiedy myśli o korelacji.

Dla dwóch zmiennych dyskretnych X i Y obliczenia są następujące:

I (X; Y) = \sum_{y \in Y} \sum_{x \in X} p (x, y) \log (\frac{p (x, y)}{p (x) p (y)})

$I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) }$

W przypadku dwóch zmiennych ciągłych całkujemy zamiast sumować:

I (X; Y) = \int_{Y} \int_{X} p (x, y) \log (\frac{p (x, y)}{p (x) p (y)}) d x d y

$I(X;Y) = \int_Y \int_X p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) } \; dx \,dy$

Twój szczególny przypadek użycia dotyczy jednego dyskretnego i jednego ciągłego. Zamiast całkować sumę lub sumować całkę, wyobrażam sobie, że łatwiej byłoby przekonwertować jedną ze zmiennych na inny typ. Typowym sposobem na to byłoby dyskretyzowanie zmiennej ciągłej na dyskretne przedziały.

Istnieje wiele sposobów dyskrecji danych (np. Równe odstępy) i uważam, że pakiet entropii powinien być pomocny w obliczeniach MI, jeśli chcesz użyć R.

— Michael McGowan
źródło

1

Dzięki. Ale jak wysoki MI odpowiada corr = 1, a jak niski MI odpowiada corr = 0?

— Luna

MI ma wartość minimalną 0, a MI = 0 wtedy i tylko wtedy, gdy zmienne są niezależne. MI nie ma jednak stałej górnej granicy (górna granica jest związana z entropiami zmiennych), więc możesz spojrzeć na jedną ze znormalizowanych wersji, jeśli jest to dla ciebie ważne.

— Michael McGowan

6

Jeśli zmienna kategorialna jest porządkowa, a zmienną ciągłą dzielisz na kilka przedziałów częstotliwości, możesz użyć wartości gamma. Dostępne również dla sparowanych danych w postaci porządkowej są tau Kendala, tau Stuarta i Somers D. Wszystkie są dostępne w SAS przy użyciu Proc Freq. Nie wiem, jak są obliczane przy użyciu procedur R. Oto link do prezentacji, która zawiera szczegółowe informacje: http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,Środki stowarzyszenia dla zmiennych nominalnych i porządkowych

— Michael R. Chernick
źródło

1

Zmienna kategoryczna jest w rzeczywistości tylko zbiorem zmiennych wskaźnikowych. Podstawową ideą teorii pomiarów jest to, że taka zmienna jest niezmienna w przypadku ponownego etykietowania kategorii, więc nie ma sensu stosowanie numerycznego oznaczania kategorii w żadnej miary związku między inną zmienną (np. „Korelacja”) . Z tego powodu pomiar zależności między zmienną ciągłą a zmienną kategorialną powinien opierać się całkowicie na zmiennych wskaźnikowych pochodzących z tej ostatniej.

Biorąc pod uwagę, że potrzebna jest miara „korelacji” między dwiema zmiennymi, warto spojrzeć na korelację między ciągłą zmienną losową a losową zmienną wskaźnikową wyprowadzoną ze zmiennej kategorialnej. Letting $X$ $I$ mamy: $\phi \equiv \mathbb{P}(I=1)$

C o v (I, X) = E (I X) - E (I) E (X) = ϕ [E (X | I = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

co daje:

C o r r (I, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | I = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

Tak więc korelacja między ciągłą zmienną losową a losową zmienną wskaźnikową jest dość prostą funkcją prawdopodobieństwa wskaźnika i znormalizowanego przyrostu oczekiwanej wartości z warunkowania na . Zauważ, że ta korelacja nie wymaga dyskretyzacji ciągłej zmiennej losowej. $X$ $I$ $\phi$ $X$ $I=1$

Dla ogólnego skategoryzowany o zakresie po prostu rozszerzyłbyś ten pomysł, aby mieć wektor wartości korelacji dla każdego wyniku zmiennej kategorialnej. Dla każdego wyniku możemy zdefiniować odpowiedni wskaźnik i mamy: $C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C o r r (I_{k}, X) = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E (X | C = k) - E (X)}{S (X)} .

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

$\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

$(x_1, c_1), ..., (x_n, c_n)$

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information on $X$ then you could estimate the correlation vector directly by maximum likelihood or some other technique.

— Reinstate Monica
źródło

0

R package mpmi has the ability to calculate mutual information for mixed variable case, namely continuous and discrete. Although there are other statistical options like (point) biserial correlation coefficient to be useful here, it would be beneficial and highly recommended to calculate mutual information since it can detect associations other than linear and monotonic.

— siyisoy
źródło

0

If $X$ is a continuous random variable and $Y$ is a categorical r.v.. the observed correlation between $X$ and $Y$ can be measured by

the point-biserial correlation coefficient, if $Y$ is dichotomous;
the point-polyserial correlation coefficient, if $Y$ is polychotomous with ordinal categories.

It should be noted, though, that the point-polyserial correlation is just a generalization of the point-biserial.

For a broader view, here's a table from Olsson, Drasgow & Dorans (1982)[1].

[1]: Source: Olsson, U., Drasgow, F., & Dorans, N. J. (1982). The polyserial correlation coefficient. Psychometrika, 47(3), 337–347

— Waldir Leoncio
źródło