Matematyka potrzebna do uzyskania dokładnego wyniku jest nieuporządkowana, ale możemy względnie bezboleśnie ustalić dokładną wartość oczekiwanego współczynnika korelacji do kwadratu Pomaga wyjaśnić, dlaczego wciąż wyświetla się wartość blisko i dlaczego zwiększenie długości losowego marszu niczego nie zmieni.1/2n
Istnieje możliwość wprowadzenia w błąd co do standardowych warunków. Bezwzględna korelacja, o której mowa w pytaniu, wraz ze statystykami, które ją tworzą - wariancje i kowariancje - są formułami, które można zastosować do dowolnej pary realizacji przypadkowych spacerów. Pytanie dotyczy tego, co dzieje się, gdy spojrzymy na wiele niezależnych realizacji. W tym celu musimy wziąć pod uwagę oczekiwania dotyczące losowego marszu.
(Edytować)
Zanim przejdziemy dalej, chcę podzielić się z Wami pewnymi spostrzeżeniami graficznymi. Para niezależnych losowych spacerów to losowy spacer w dwóch wymiarach. Możemy wykreślić ścieżkę, która prowadzi od każdego do . Jeśli ta ścieżka zmierza w dół (od lewej do prawej, wykreślona na zwykłych osiach XY), to aby zbadać bezwzględną wartość korelacji , zanegujmy wszystkie wartościWykreśl spacery na osiach o wymiarach zapewniających wartości i równych odchyleń standardowych i nałóż dopasowanie do najmniejszych kwadratów(X,Y)(Xt,Yt)Xt+1,Yt+1YXYYX. Nachylenia tych linii będą bezwzględnymi wartościami współczynników korelacji, wynoszącymi zawsze między a .01
Ten rysunek pokazuje takich spacerów, każdy o długości (ze standardowymi różnicami normalnymi). Małe otwarte kółka oznaczają ich punkty początkowe. Cienie zaznaczają swoje ostateczne położenie.15960
Te stoki wydają się być dość duże. Idealnie losowe wykresy rozrzutu tych wielu punktów zawsze miałyby zbocza bardzo zbliżone do zera. Gdybyśmy musieli opisać pojawiające się tutaj wzory, moglibyśmy powiedzieć, że większość losowych spacerów 2D stopniowo migruje z jednego miejsca do drugiego. (Jednak niekoniecznie są to lokalizacje początkowe i końcowe!) Mniej więcej w połowie przypadków migracja odbywa się w kierunku ukośnym - a nachylenie jest odpowiednio duże.
Pozostała część tego postu szkicuje analizę tej sytuacji.
Spacer losowy jest sekwencją sum częściowych gdzie są niezależnymi identycznie rozmieszczonymi zmiennymi o zerowej średniej. Niech ich powszechną wariancją będzie .(Xi)(W1,W2,…,Wn)Wiσ2
W realizacji takiego marszu „wariancja” byłaby obliczana tak, jakby to był dowolny zestaw danych:x=(x1,…,xn)
V(x)=1n∑(xi−x¯)2.
Dobrym sposobem na obliczenie tej wartości jest pobranie połowy średniej wszystkich kwadratowych różnic:
V(x)=1n(n−1)∑j>i(xj−xi)2.
Gdy jest postrzegane jako wynik przypadkowej spacer w krokach, oczekiwanie to jestxXn
E(V(X))=1n(n−1)∑j>iE(Xj−Xi)2.
Różnice są sumami zmiennych iid,
Xj−Xi=Wi+1+Wi+2+⋯+Wj.
Rozwiń kwadrat i weź oczekiwania. Ponieważ są niezależne i mają zero środków, oczekiwania wszystkich krzyżówek są zerowe. To pozostawia tylko warunki takie jak , którego oczekiwanie to . A zatemWkWkσ2
E((Wi+1+Wi+2+⋯+W2j))=(j−i)σ2.
Łatwo to wynika
E(V(X))=1n(n−1)∑j>i(j−i)σ2=n+16σ2.
Kowariancja między dwiema niezależnymi realizacjami i ponownie w sensie zestawów danych, a nie zmiennych losowych - może być obliczona za pomocą tej samej techniki (ale wymaga to więcej pracy algebraicznej; zaangażowana jest poczwórna suma). W rezultacie oczekiwany kwadrat kowariancji wynosixy
E(C(X,Y)2)=3n6−2n5−3n2+2n480n2(n−1)2σ4.
W związku z tym oczekiwanie na kwadratowy współczynnik korelacji między i , wzięty do kroków, wynosiXYn
ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n3−2n2+3n−2n3−n.
Chociaż nie jest to stałe, szybko zbliża się do wartości granicznej . Jego pierwiastek kwadratowy, około , przybliża zatem oczekiwaną wartość bezwzględną (i nie docenia jej).9/400.47ρ(n)
Jestem pewien, że popełniłem błędy obliczeniowe, ale symulacje potwierdzają asymptotyczną dokładność. W poniższych wynikach pokazujących histogramy dla symulacji każda, pionowe czerwone linie pokazują średnie, a przerywane niebieskie linie pokazują wartość formuły. Oczywiście jest to niepoprawne, ale asymptotycznie ma rację. Najwyraźniej cały rozkład zbliża się do limitu wraz ze wzrostem . Podobnie rozkład(która jest ilością odsetek) zbliży się do limitu.1000 ρ 2 ( n ) n | ρ ( n ) |ρ2(n)1000ρ2(n)n|ρ(n)|
To jest R
kod do stworzenia figury.
f <- function(n){
m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
u <- matrix(rnorm(n*n.sim), nrow=n)
v <- matrix(rnorm(n*n.sim), nrow=n)
x <- apply(u, 2, cumsum)
y <- apply(v, 2, cumsum)
sim <- rep(NA_real_, n.sim)
for (i in 1:n.sim)
sim[i] <- cor(x[,i], y[,i])^2
z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
abline(v=mean(sim), lwd=2, col="Red")
abline(v=f(n), col="Blue", lwd=2, lty=3)
}