Dolna linia
Współczynnik korelacji próbki potrzebny do odrzucenia hipotezy, że rzeczywisty (Pearsona) współczynnik korelacji wynosi zero, staje się niewielki dość szybko wraz ze wzrostem wielkości próby. Tak w ogóle, nie, nie można równocześnie mieć duży (co do wielkości) Współczynnik korelacji i jednocześnie dużą -valuep .
The Top Line (Szczegóły)
Test zastosowany dla współczynnika korelacji Pearsona w funkcji jest bardzo nieznacznie zmodyfikowaną wersją metody, którą omawiam poniżej.Rcor.test
Załóżmy, że są to dwuwymiarowe normalne losowe wektory z korelacją ρ . Chcemy przetestować hipotezę zerową, że ρ = 0 w porównaniu z ρ ≠ 0 . Niech r będzie współczynnikiem korelacji próbki. Stosując standardową teorię regresji liniowej, nietrudno wykazać, że statystyka testowa,
T = r √(X1,Y1),(X2,Y2),…,(Xn,Yn)ρρ=0ρ≠0r
marozkładtn-2pod hipotezą zerową. W przypadku dużychnThetn-2Rozkład zbliża rozkładu normalnego. StądT2jest w przybliżeniu chi-kwadrat rozmieszczone o jednym stopniu swobody. (Przy przyjętych przez nas założeniachT2∼F1,n-2w rzeczywistości, aleprzybliżenieχ21wyjaśnia, co się dzieje, jak sądzę.)
T=rn−2−−−−−√(1−r2)−−−−−−√
tn−2ntn−2T2T2∼F1,n−2χ21
Tak więc
gdzie q 1 - α jestkwantylem ( 1 - α ) rozkładu chi-kwadrat o jednym stopniu swobody.
P(r21−r2(n−2)≥q1−α)≈α,
q1−α(1−α)
Teraz zauważ, że rośnie wraz ze wzrostem r 2 . Zmieniając liczbę w rachunku prawdopodobieństwa, mamy to dla wszystkich
| r | ≥ 1r2/(1−r2)r2
otrzymamy odrzucenie hipotezy zerowej na poziomieα. Najwyraźniej prawa strona maleje zn.
|r|≥11+(n−2)/q1−α−−−−−−−−−−−−−√
αn
Fabuła
Oto wykres regionu odrzucenia jako funkcja wielkości próby. Na przykład, gdy wielkość próbki przekracza 100, (absolutna) korelacja musi wynosić tylko około 0,2, aby odrzucić wartość zerową na poziomie α = 0,05 .|r|α=0.05
Symulacja
Możemy wykonać prostą symulację, aby wygenerować parę wektorów o zerowej średniej z dokładnym współczynnikiem korelacji. Poniżej znajduje się kod. Z tego możemy przyjrzeć się wynikowi cor.test
.
k <- 100
n <- 4*k
# Correlation that gives an approximate p-value of 0.05
# Change 0.05 to some other desired p-value to get a different curve
pval <- 0.05
qval <- qchisq(pval,1,lower.tail=F)
rho <- 1/sqrt(1+(n-2)/qval)
# Zero-mean orthogonal basis vectors
b1 <- rep(c(1,-1),n/2)
b2 <- rep(c(1,1,-1,-1),n/4)
# Construct x and y vectors with mean zero and an empirical
# correlation of *exactly* rho
x <- b1
y <- rho * b1 + sqrt(1-rho^2) * b2
# Do test
ctst <- cor.test(x,y)
Zgodnie z żądaniem w komentarzach, oto kod do odtworzenia wykresu, który można uruchomić natychmiast po powyższym kodzie (i wykorzystuje niektóre zmienne tam zdefiniowane).
png("cortest.png", height=600, width=600)
m <- 3:1000
yy <- 1/sqrt(1+(m-2)/qval)
plot(m, yy, type="l", lwd=3, ylim=c(0,1),
xlab="sample size", ylab="correlation")
polygon( c(m[1],m,rev(m)[1]), c(1,yy,1), col="lightblue2", border=NA)
lines(m,yy,lwd=2)
text(500, 0.5, "p < 0.05", cex=1.5 )
dev.off()