Normalne przybliżenie do rozkładu Poissona

12

Tutaj w Wikipedii jest napisane:

Dla wystarczająco dużych wartości $λ$ (powiedzmy $λ>1000$ ) rozkład normalny ze średnią $λ$ i wariancją $λ$ (odchylenie standardowe $\sqrt{\lambda}$ ) stanowi doskonałe przybliżenie do rozkładu Poissona. Jeżeli $λ$ jest większe niż około 10, to rozkład normalny jest dobrym przybliżeniem, jeśli przeprowadzona jest odpowiednia korekta ciągłości, tj. $P(X ≤ x),$ gdzie (mała litera) $x$ jest liczbą całkowitą nieujemną, zastępuje się $P(X ≤ x + 0.5).$

$F_\mathrm{Poisson}(x;\lambda) \approx F_\mathrm{normal}(x;\mu=\lambda,\sigma^2=\lambda)$

Niestety nie jest to cytowane. Chcę być w stanie pokazać / udowodnić to z pewnym rygorem. Jak można powiedzieć, że rozkład normalny jest dobrym przybliżeniem, gdy $\lambda > 1000$ , jak oszacować to „doskonałe” przybliżenie, jakie miary zastosowano?

Najdalej z tym mam do czynienia tutaj, gdzie John mówi o użyciu twierdzenia Berry – Esseen i przybliża błąd w dwóch CDF. Z tego, co widzę, nie wypróbowuje żadnych wartości $\lambda \geq 1000$ .

normal-distribution poisson-distribution approximation

— hgeop
źródło

6

Nie można tego udowodnić bez zdefiniowania „dobrego”. (Możesz udowodnić wynik asymptotyczny, ale nie możesz zadeklarować, że jest „dobry” przy określonej wielkości próby bez zdefiniowania kryteriów.) Możesz zademonstrować jego zachowanie na podstawie bezpośredniego przykładu (z którego ludzie mogą zobaczyć, jak dobry „dobry” jest przez ich własne światła). W przypadku typowych kryteriów ludzie zwykle używają korekcji ciągłości działa dobrze dla o ile nie zagłębisz się w ogon.

λ > 10

$\lambda>10$

— Glen_b

1

(Mówiąc ściślej, jeśli twoim kryterium jest błąd bezwzględny, możesz potencjalnie osiągnąć „dobry” wszędzie przy małych próbkach, takich jak 10, ale większość ludzi dba o coś bliższego względnemu błędowi)

— Glen_b

7

Załóżmy, że to Poisson z parametrem , a jest normalne ze średnią i wariancją . Wydaje mi się, że właściwym porównaniem jest i . Tutaj dla uproszczenia piszę , to znaczy jesteśmy zainteresowani, gdy odpowiada standardowym odchyleniom od średniej. $X$ $\lambda$ $Y$ $\lambda$ $\Pr(X = n)$ $\Pr(Y \in [n-\frac12,n+\frac12])$ $n = \lambda + \alpha \sqrt\lambda$ $n$ $\alpha$

Więc oszukiwałem. Użyłem Mathematica. Tak więc i są asymptotyczne do jako . Ale ich różnica jest asymptotyczna do Jeśli wykreślisz to jako funkcję , otrzymasz tę samą krzywą, jak pokazano na drugim do ostatniego rysunku w http://www.johndcook.com/blog/normal_approx_to_poisson/ . $\Pr(X = n)$ $\Pr(Y \in [n-\frac12,n+\frac12])$

\frac{1}{\sqrt{2) π λ}} {mi}^{- α^{2)} / 2)}

$\frac 1{\sqrt{2\pi \lambda}} e^{-\alpha^2/2}$

λ \to \infty

$\lambda \to \infty$

\frac{α (α^{2)} - 3)) {mi}^{- α^{2)} / 2)}}{6 \sqrt{2) π} λ}

$\frac{\alpha \left(\alpha ^2-3\right) e^{-\alpha ^2/{2}}}{6 \sqrt{2 \pi } \lambda }$

α

$\alpha$

Oto polecenia, których użyłem:

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

Ponadto, przy odrobinie eksperymentów, wydaje mi się, że lepszym asymptotycznym przybliżeniem do jest . Zatem błąd to czyli około razy mniej. $\Pr(X = n)$ $\Pr(Y \in [n-\alpha^2/6,n+1-\alpha^2/6])$

- \frac{(5 α^{4} - 9 α^{2)} - 6) {mi}^{- α^{2)} / 2)}}{72 \sqrt{2) π} λ^{3) / 2)}}

$-\frac{\left(5 \alpha ^4-9 \alpha ^2-6\right) e^{-{\alpha ^2}/{2}} }{72 \sqrt{2 \pi } \lambda ^{3/2} }$

\sqrt{λ}

$\sqrt\lambda$

— Stephen Montgomery-Smith
źródło

2

Glen_b ma rację, ponieważ „dobre dopasowanie” jest bardzo subiektywnym pojęciem. Jeśli jednak chcesz sprawdzić, czy rozkład Poissona jest w miarę normalny, możesz użyć hipotetycznego testu Kolmorgova-Smirnova z hipotezą zerową CDF pochodzi z rozkładu , przy założeniu twoja próbka będzie pochodzić z Poissona ( ). Ponieważ tak naprawdę nie testujesz próbki, ale jeden rozkład względem drugiego, musisz dokładnie przemyśleć wielkość próbki i poziom istotności, który zakładasz w tym hipotetycznym teście (ponieważ nie używamy testu KS w typowy sposób). To jest: $H_{0}:$ $N(\lambda,\lambda)$ $\lambda$

Wybierz reprezentatywną, hipotetyczną wielkość próby, n, i dostosuj poziom istotności testu do typowej wartości, np. 5%.

Teraz obliczyć współczynnik błędu typu II dla tego testu, zakładając, że dane faktycznie pochodzą z poissona ( ). Stopień dopasowania z rozkładem normalnym będzie taki jak współczynnik błędu typu II, w tym sensie, że próbki o rozmiarze n z określonego rozkładu Poissona będą średnio akceptowane % czasu przez test normalności KS w wybranym poziom istotności. $\lambda$ $\beta$

W każdym razie jest to tylko jeden sposób na uzyskanie poczucia „dobroci dopasowania”. Jednak wszystkie polegają na pewnych subiektywnych pojęciach „dobroci”, które będziecie musieli sami zdefiniować.

2

Wyprowadzenie z rozkładu dwumianowego może dać ci wgląd.

Mamy dwumianową zmienną losową;

p (x) = (\binom{n}{x}) p^{x} (1 - p)^{n - x}

$p(x) = {n \choose x} p^x (1-p)^{n-x}$

Można to alternatywnie obliczyć rekurencyjnie;

p (x) = \frac{(n - x + 1) p}{x (1 - p)} p (x - 1)

$p(x) = \frac{(n-x+1)p}{x(1-p)}p(x-1)$

Jeśli utrzymasz stan początkowy;

p (0) = (1 - p)^{n}

$p(0) = (1-p)^n$

Załóżmy teraz, że jest duże, a jest małe, ale średni sukces jest stały . Następnie możemy wykonać następujące czynności; $n$ $p$ $p(x)$ $(np = \lambda)$

P. (X = ja) = (\binom{n}{ja}) p^{x} (1 - p)^{n - x}

$P( X = i ) = {n \choose i} p^x (1-p)^{n-x}$

Używamy tego . $p = \lambda / n$

P. (X = ja) = \frac{n!}{(n - ja)! ja!} {(\frac{λ}{n})}^{ja} {(1 - \frac{λ}{n})}^{n - ja}

$P( X = i ) = \frac{n!}{(n-i)!i!} \left(\frac{\lambda}{n}\right)^i \left(1-\frac{\lambda}{n}\right)^{n-i}$

Przełączamy niektóre zmienne i oceniamy;

P. (X = ja) = \frac{n (n - 1) (n - 2)) \dots (n - ja + 1)}{n^{ja}} \frac{λ^{ja}}{ja!} \frac{(1 - \frac{λ}{n})^{n}}{(1 - \frac{λ}{n})^{ja}}

$P( X = i ) = \frac{n(n-1)(n-2)\cdots(n-i+1)}{n^i} \frac{\lambda^i}{i!} \frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^i}$

Z rachunku wiemy, że . Wiemy również, że ponieważ zarówno góra, jak i dół są wielomianami stopnia $\lim_{n\to\infty} (1 + x/n)^n = e^x$ $[n(n-1)(n-2)\cdots(n-i+1)]/n^i \approx 1$ $i$ .

Prowadzi to do wniosku, że jako : $n \to \infty$

P. (X = ja) \to \frac{{mi}^{- λ} λ^{ja}}{ja!}

$P(X=i) \to \frac{ e^{-\lambda}{\lambda^i}}{i!}$

Następnie możesz sprawdzić, czy i za pomocą definicji. Wiemy, że rozkład dwumianowy jest zbliżony do normy w warunkach twierdzenia De Moivre-Laplace'a, o ile korygujesz ciągłość, dlatego zastępuje się . $E(X) = \lambda$ $\operatorname{Var}(X) = \lambda$ $P(X\le x)$ $P(X\le x+0.5)$

— Vincent Warmerdam
źródło