Aby scharakteryzować wielkość dyspersji 2D wokół środka ciężkości, potrzebujesz tylko (pierwiastka) średniej kwadratowej odległości,
σ^= RMS =1n∑ja( (xja-x¯)2)+ (yja-y¯)2))-----------------------√.
W tym wzorze są współrzędnymi punktu, a ich centroid (punkt średnich) to(xja,yja) , i = 1 , 2 , … , n(x¯,y¯) .
Pytanie dotyczy rozkładu odległości. Gdy kulki mają dwuwymiarowy rozkład izotropowy Normalny rozkład wokół ich środka ciężkości - co jest standardowym i fizycznie uzasadnionym założeniem - odległość w kwadracie jest proporcjonalna do rozkładu chi-kwadrat z dwoma stopniami swobody (jeden dla każdej współrzędnej). Jest to bezpośrednia konsekwencja jednej definicji rozkładu chi-kwadrat jako sumy kwadratów niezależnych standardowych zmiennych normalnych, ponieważ to liniowa kombinacja niezależnych zmiennych normalnych z oczekiwaniami Zapisywanie wspólnej wariancji
xja-x¯=n - 1nxja-∑j ≠ i1nxjot
E[xi−x¯]=n−1nE[xi]−∑j≠i1nE[xj]=0.
xias , Zakładamy, że anizotropia jest taka, że mają taki sam rozkład jak i są od nich niezależne, więc identyczny wynik obowiązuje dla rozkładu . Ustanawia to stałą proporcjonalności:
kwadraty odległości mają rozkład chi-kwadrat z dwoma stopniami swobody skalowanymi przez .σ2E[(xi−x¯)2]=Var(xi−x¯)=(n−1n)2Var(xi)+∑j≠i(1n)2Var(xj)=n−1nσ2.
yjxi(yj−y¯)2n−1nσ2
Najpoważniejszym testem tych równań jest przypadek , ponieważ wówczas ułamek najbardziej różni się od . Symulując eksperyment, zarówno dla i , oraz wykreślając histogramy kwadratowych odległości za pomocą skalowanych rozkładów chi-kwadrat (na czerwono), możemy zweryfikować tę teorię.n=2n−1n1n=2n=40
Każdy wiersz pokazuje te same dane: po lewej oś x jest logarytmiczna; po prawej stronie pokazuje rzeczywistą odległość do kwadratu. Prawdziwa wartość dla tych symulacji została ustawiona na .σ1
Te wyniki dotyczą 100 000 iteracji przy i 50 000 iteracji przy . Zgodności między histogramami a gęstością chi-kwadrat są doskonałe.n=2n=40
Chociaż jest nieznany, można go oszacować na różne sposoby. Na przykład średnia kwadratowa odległość powinna wynosić razy średnia z , czyli . Z , na przykład, oszacowanie co -krotność średniego kwadratu odległości. Zatem oszacowanie byłoby razy większe od odległości RMS. Korzystając z wartości , możemy powiedzieć, że:σ2n−1nσ2χ222n=40σ24039/2σ40/78−−−−−√χ22
Około 39% odległości będzie mniejsze niż , ponieważ 39% jest mniejsze niż .39/40−−−−−√σ^χ221
Około 78% odległości będzie mniejsze niż razy , ponieważ 78% jest mniejsze niż .3–√39/40−−−−−√σ^χ223
I tak dalej, dla dowolnej wielokrotności, którą chcesz użyć zamiast lub . Dla sprawdzenia, w wcześniejszych symulacjach dla , rzeczywiste proporcje kwadratów odległości mniejsze niż razy wynosiły13n=401,2,…,10n−1nσ^2
0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933
Teoretyczne proporcje są
0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933
Umowa jest doskonała.
Oto R
kod do przeprowadzania i analizy symulacji.
f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
#
# Generate `n.iter` experiments in which `n` locations are generated using
# standard normal variates for their coordinates.
#
xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
#
# Compute the squared distances to the centers for each experiment.
#
xy.center <- apply(xy, c(1,2), mean)
xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3),
function(z) sum(z^2))
#
# Optionally plot histograms.
#
if(plot) {
xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]
hist(log(xy.plot), prob=TRUE, breaks=30,
main=paste("Histogram of log squared distance, n=", n),
xlab="Log squared distance")
curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1),
from=log(min(xy.plot)), to=log(max(xy.plot)),
n=513, add=TRUE, col="Red", lwd=2)
hist(xy.plot, prob=TRUE, breaks=30,
main=paste("Histogram of squared distance, n=", n),
xlab="Squared distance")
curve(n/(n-1) * dchisq(n/(n-1) * x, df=2),
from=min(xy.plot), to=max(xy.plot),
n=513, add=TRUE, col="Red", lwd=2)
}
return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2,
(0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)