Gęstość rozkładu normalnego wraz ze wzrostem wymiarów

Pytanie, które chcę zadać, brzmi: w jaki sposób odsetek próbek w granicach 1 SD od średniej rozkładu normalnego zmienia się wraz ze wzrostem liczby zmiennych?

(Prawie) każdy wie, że w 1-wymiarowym rozkładzie normalnym 68% próbek można znaleźć w granicach 1 odchylenia standardowego od średniej. A co z wymiarami 2, 3, 4, ...? Wiem, że robi się mniej ... ale o ile (dokładnie)? Przydałoby się mieć tabelę pokazującą liczby dla 1, 2, 3 ... 10 wymiarów, a także dla 1, 2, 3 ... 10 SD. Czy ktoś może wskazać na taki stół?

Trochę więcej kontekstu - mam czujnik, który zapewnia dane na maksymalnie 128 kanałach. Każdy kanał podlega (niezależnemu) zakłóceniom elektrycznym. Kiedy wyczuwam obiekt kalibracyjny, mogę uśrednić wystarczającą liczbę pomiarów i uzyskać średnią wartość dla 128 kanałów wraz ze 128 pojedynczymi odchyleniami standardowymi.

ALE ... jeśli chodzi o pojedyncze odczyty natychmiastowe, dane nie reagują tak bardzo jak 128 pojedynczych odczytów, ale podobnie jak pojedynczy odczyt (do) 128-dimensonalnej wielkości wektora. Z pewnością jest to najlepszy sposób na potraktowanie kilku krytycznych odczytów, które wykonujemy (zwykle 4-6 ze 128).

Chcę poczuć, co jest „normalną” odmianą, a co „odstające” w tej przestrzeni wektorowej. Jestem pewien, że widziałem tabelę taką jak ta, którą opisałem, która dotyczyłaby tego rodzaju sytuacji - czy ktoś może wskazać na jedną?

normal-distribution multivariate-analysis

— omatai
źródło

Proszę - czy mogę podać tylko odpowiedzi empiryczne - nie rozumiem większości zapisów matematycznych.

— omatai

Weźmy : każdy jest normalny a są niezależne - myślę, że to masz na myśli przy wyższych wymiarach. $X = (X_1,\dots,X_d) \sim N(0,I)$ $X_i$ $N(0,1)$ $X_i$

Powiedziałbyś, że jest w odległości 1 sd od średniej, kiedy (odległość między X a jego średnią wartością jest mniejsza niż 1). Teraz więc dzieje się tak z prawdopodobieństwem gdzie $X$ $||X|| < 1$ $||X||^2 = X_1^2 +\cdots+X_d^2\sim \chi^2(d)$ $P( \xi < 1 )$ $\xi\sim\chi^2(d)$ . Można to znaleźć w dobrych kwadratowych stołach chi ...

Oto kilka wartości:

\begin{array}{ll} d & P (ξ < 1) \\ 1 & 0.68 \\ 2 & 0.39 \\ 3 & 0.20 \\ 4 & 0.090 \\ 5 & 0.037 \\ 6 & 0.014 \\ 7 & 0.0052 \\ 8 & 0.0018 \\ 9 & 0.00056 \\ 10 & 0.00017 \end{array}

$\begin{array}{ll} d& P(\xi < 1)\\ 1 & 0.68\\ 2 & 0.39 \\ 3 & 0.20 \\ 4 & 0.090 \\ 5 & 0.037 \\ 6 & 0.014 \\ 7 & 0.0052 \\ 8 & 0.0018\\ 9 & 0.00056\\ 10& 0.00017\\ \end{array}$

A dla 2 sd:

\begin{array}{ll} d & P (ξ < 4) \\ 1 & 0.95 \\ 2 & 0.86 \\ 3 & 0.74 \\ 4 & 0.59 \\ 5 & 0.45 \\ 6 & 0.32 \\ 7 & 0.22 \\ 8 & 0.14 \\ 9 & 0.089 \\ 10 & 0.053 \end{array}

$\begin{array}{ll} d & P(\xi < 4)\\ 1 & 0.95\\ 2 & 0.86\\ 3 & 0.74\\ 4 & 0.59\\ 5 & 0.45\\ 6 & 0.32\\ 7 & 0.22\\ 8 & 0.14\\ 9 & 0.089\\ 10 & 0.053\\ \end{array}$

Można uzyskać te wartości w R z commads jak pchisq(1,df=1:10), pchisq(4,df=1:10)itp

Post Scriptum Jak kardynał zauważył w komentarzach, można oszacować asymptotyczne zachowanie tych prawdopodobieństw. CDF zmiennej wynosi $\chi^2(d)$ gdziejestniepełną funkcją , a klasycznie.

F_{d} (x) = P (d / 2, x / 2) = \frac{γ (d / 2, x / 2)}{Γ (d / 2)}

$F_d(x) = P(d/2,x/2) = {\gamma(d/2, x/2) \over \Gamma(d/2)}$

γ (s, y) = \int_{0}^{y} t^{s - 1} e^{- t} d t

$\gamma(s,y) = \int_0^y t^{s-1} e^{-t} \mathrm d t$

γ

$\gamma$

Γ (s) = \int_{0}^{\infty} t^{s - 1} e^{- t} d t

$\Gamma(s) = \int_0^\infty t^{s-1} e^{-t} \mathrm d t$

Gdy jest liczbą całkowitą, wielokrotne całkowanie przez części pokazuje, że $s$ który jest ogonem CDF rozkładu Poissona.

P (s, y) = e^{- y} \sum_{k = s}^{\infty} \frac{y^{k}}{k!},

$P(s,y) = e^{-y} \sum_{k=s}^\infty {y^k \over k!},$

Teraz ta suma jest zdominowany przez jego pierwszej kadencji (wielkie dzięki kardynałowi): dla dużych. Możemy zastosować to, gdyjest parzyste: $P(s,y) \sim {y^s \over s!} e^{-y}$ $s$ $d$

P (ξ < x) = P (d / 2, x / 2) \sim \frac{1}{(d / 2)!} {(\frac{x}{2})}^{d / 2} e^{- x / 2} \sim \frac{1}{\sqrt{π d}} e^{\frac{1}{2} (d - x)} {(\frac{x}{d})}^{\frac{d}{2}} \sim \frac{1}{\sqrt{π}} e^{- \frac{1}{2} x} d^{- \frac{1}{2} d},

$P(\xi < x) = P(d/2,x/2) \sim {1 \over (d/2)!} \left({x\over 2}\right)^{d/2} e^{-x/2} \sim {1\over\sqrt{\pi d}}e^{{1\over 2}(d-x)} \left({x\over d}\right)^{d\over 2} \sim {1\over\sqrt\pi} e^{-{1\over 2}x} d^{-{1\over 2}d},$

d

$d$

d

$d$

— Elvis
źródło

Witamy na naszej stronie, Elvis! Niezła odpowiedź. (+1)

— whuber

ξ

$\xi$

d

$d$

Dziękuję za twoje komentarze. Nie sądziłem, że ta odpowiedź przyniesie wiele uwagi! To prawda, że jest to miła forma przekleństwa wymiarowości ... @ kardynał dotyczący (3) Nie znam żadnego asymptotycznego odpowiednika niekompletnej funkcji gamma, gdy pierwsze parametry zmienią się w nieskończoność, drugi jest ustalony, to nie jest łatwo! Można by zrobić zgrubną większość, mogę to napisać później.

— Elvis

d

$d$

d = 2 k

$d = 2 k$

Z_{i} = X_{2 i - 1}^{2} + X_{2 i}^{2}

$Z_i = X_{2i-1}^2 + X_{2i}^2$

E x p (1 / 2)

$\mathrm{Exp}(1/2)$

‖ X ‖^{2} = \sum_{i = 1}^{k} Z_{i}

$\|X\|^2 = \sum_{i=1}^k Z_i$

‖ X ‖^{2}

$\|X\|^2$

k

$k$

P (‖ X ‖^{2} < 1) = P (N_{1 / 2} (0, 1) \geq k) = e^{- 1 / 2} \sum_{x = k}^{\infty} 2^{- x} / x!

$\mathbb P(\|X\|^2 < 1 ) = \mathbb P( N_{1/2}(0,1) \geq k) = e^{-1/2} \sum_{x=k}^\infty 2^{-x}/x!$ . The tail of the Poisson is dominated by the leading term, so

P (‖ X ‖^{2} < 1) \sim e^{- 1 / 2} 2^{- k} / Γ (k + 1)

$\mathbb P(\|X\|^2 < 1) \sim e^{-1/2} 2^{-k} / \Gamma(k+1)$ as

d \to \infty

$d\to\infty$ (Again:

k = d / 2

$k = d/2$ ).

— cardinal

Part of the point of the foregoing comment is that we get an exact answer for all even

d

$d$ . Also, using Stirling's approximation, we get that

P (‖ X ‖^{2} < 1) \sim e^{- 1 / 2} 2^{- k} / Γ (k + 1) \sim e^{(d - 1) / 2} d^{- (d + 1) / 2} / \sqrt{π}

$\mathbb P(\|X\|^2 < 1 ) \sim e^{-1/2} 2^{-k} / \Gamma(k+1) \sim e^{(d-1)/2} d^{-(d+1)/2} / \sqrt{\pi}$ .

— cardinal