Zmienna kategoryczna jest w rzeczywistości tylko zbiorem zmiennych wskaźnikowych. Podstawową ideą teorii pomiarów jest to, że taka zmienna jest niezmienna w przypadku ponownego etykietowania kategorii, więc nie ma sensu stosowanie numerycznego oznaczania kategorii w żadnej miary związku między inną zmienną (np. „Korelacja”) . Z tego powodu pomiar zależności między zmienną ciągłą a zmienną kategorialną powinien opierać się całkowicie na zmiennych wskaźnikowych pochodzących z tej ostatniej.
Biorąc pod uwagę, że potrzebna jest miara „korelacji” między dwiema zmiennymi, warto spojrzeć na korelację między ciągłą zmienną losową a losową zmienną wskaźnikową I wyprowadzoną ze zmiennej kategorialnej. Letting ϕ ≡ P (XI mamy:ϕ≡P(I=1)
Cov(I,X)=E(IX)−E(I)E(X)=ϕ[E(X|I=1)−E(X)],
co daje:
Corr(I,X)=ϕ1−ϕ−−−−−√⋅E(X|I=1)−E(X)S(X).
Tak więc korelacja między ciągłą zmienną losową a losową zmienną wskaźnikową I jest dość prostą funkcją prawdopodobieństwa wskaźnika ϕ i znormalizowanego przyrostu oczekiwanej wartości X z warunkowania na I = 1 . Zauważ, że ta korelacja nie wymaga dyskretyzacji ciągłej zmiennej losowej.XIϕXI=1
Dla ogólnego skategoryzowany o zakresie 1 , . . . , m po prostu rozszerzyłbyś ten pomysł, aby mieć wektor wartości korelacji dla każdego wyniku zmiennej kategorialnej. Dla każdego wyniku C = k możemy zdefiniować odpowiedni wskaźnik I k ≡ I ( C = k ) i mamy:C1,...,mC=kIk≡I(C=k)
Corr(Ik,X)=ϕk1−ϕk−−−−−−√⋅E(X|C=k)−E(X)S(X).
Corr(C,X)≡(Corr(I1,X),...,Corr(Im,X))
∑kCov(Ik,X)=0Xm−1
(x1,c1),...,(xn,cn)
ϕ^k≡1n∑i=1nI(ci=k).
E^(X)≡x¯≡1n∑i=1nxi.
E^(X|C=k)≡x¯k≡1n∑i=1nxiI(ci=k)/ϕ^k.
S^(X)≡sX≡1n−1∑i=1n(xi−x¯)2−−−−−−−−−−−−−−−√.
Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information on X then you could estimate the correlation vector directly by maximum likelihood or some other technique.