Rysujemy próbek, każda o rozmiarze , niezależnie od rozkładu Normal .
Z próbek wybieramy następnie 2 próbki, które mają najwyższą (absolutną) korelację Pearsona ze sobą.
Jaka jest oczekiwana wartość tej korelacji?
Dzięki [PS To nie zadanie domowe]
Rysujemy próbek, każda o rozmiarze , niezależnie od rozkładu Normal .
Z próbek wybieramy następnie 2 próbki, które mają najwyższą (absolutną) korelację Pearsona ze sobą.
Jaka jest oczekiwana wartość tej korelacji?
Dzięki [PS To nie zadanie domowe]
Odpowiedzi:
Znalazłem następujący artykuł, który dotyczy tego problemu: Jiang, Tiefeng (2004). Rozkłady asymptotyczne największych wpisów macierzy korelacji próbek. The Annals of Applied Prawdopodobieństwo, 14 (2), 865-880
Jiang pokazuje asymptotyczny rozkład statystyki, gdzie jest korelacją między tym i tym losowym wektorem o długości (z ), wynosi
Najwyraźniej ten wynik dotyczy wszelkich rozkładów dystrybucji z wystarczającą liczbą skończonych momentów ( edycja: patrz komentarz @ kardynała poniżej). Jiang zwraca uwagę, że jest to ekstremalny rozkład wartości typu I. Lokalizacja i skala są
Oczekiwana wartość rozkładu EV typu I to , gdzie oznacza stałą Eulera. Jednakże, jak zauważono w komentarzach, konwergencja w dystrybucji sama w sobie nie gwarantuje konwergencji środków do dystrybucji ograniczającej.
Jeśli moglibyśmy pokazać taki wynik w tym przypadku, to asymptotyczna oczekiwana wartośćwynosiłaby
Należy zauważyć, że dałoby to asymptotyczną wartość oczekiwaną największej korelacji do kwadratu, podczas gdy pytanie dotyczyło oczekiwanej wartości największej korelacji bezwzględnej. Więc nie 100% tam, ale blisko.
Zrobiłem kilka krótkich symulacji, które doprowadziły mnie do wniosku, że albo 1) jest problem z moją symulacją (prawdopodobnie), 2) jest problem z moją transkrypcją / algebrą (prawdopodobnie również), lub 3) przybliżenie nie jest poprawne dla zastosowane wartości i I. Być może PO może zważyć niektóre wyniki symulacji przy użyciu tego przybliżenia?
Oprócz odpowiedzi udzielonej przez @jmtroos, poniżej znajdują się szczegóły mojej symulacji i porównanie z wyprowadzeniem @ jmtroos oczekiwań od Jiang (2004) , to znaczy:
Wartości tego oczekiwania wydają się przekraczać symulowane wartości dla małego i poniżej dla dużego i wydają się nieco różnić w miarę wzrostuJednak różnice zmniejszają się wraz ze wzrostem , jak można się spodziewać, ponieważ artykuł twierdzi, że rozkład jest asymptotyczny. Próbowałem różnych . Poniższa symulacja wykorzystuje . Jestem całkiem nowy w R, więc wszelkie wskazówki i sugestie dotyczące ulepszenia mojego kodu będą mile widziane.
set.seed(1)
ns <- 500
# number of simulations for each N
n <- 200
# length of each vector
mu <- 0
sigma <- 1
# parameters for the distribution we simulate from
par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns
y<-vector(mode = "numeric")
#vector to store the mean correlations
k<- 1
#index for y
for (N in x) {
# loop over a range of N
dt <- matrix(nrow=n,ncol=N)
J <- vector(mode = "numeric")
# vector to store the simulated largest absolute
# correlations for each N
for (j in 1:ns) {
# for each N, simulated ns times
for (i in 1:N) {
dt[,i] <- rnorm(n,mu,sigma)
}
# perform the simulation
M<-matrix(cor(dt),nrow=N,ncol=N)
m <- M
diag(m) <- NA
J[j] <- max(abs(m), na.rm=TRUE)
# obtain the largest absolute correlation
# these 3 lines came from stackoverflow
}
hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4)))
y[k]<-mean(J)
k=k+1
}
lm1 <- lm(y~log(x))
summary(lm1)
logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations
# Jiang 2004 paper, computation:
gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)
plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation