Intuicyjnie rozumiem, dlaczego rozkład Poissona jest ograniczającym przypadkiem rozkładu dwumianowego


14

W „Analizie danych” DS Sivii istnieje pochodna rozkładu Poissona z rozkładu dwumianowego.

Twierdzą, że rozkład Poissona jest ograniczającym przypadkiem rozkładu dwumianowego, gdy M , gdzie M jest liczbą prób.

Pytanie 1: Jak intuicyjnie zrozumieć ten argument?

Pytanie 2: Dlaczego dużymi M limit M!N!(MN)!równaMNN!, gdzieNjest liczbą sukcesów wpróbachM? (Ten krok jest używany do wyprowadzenia).


Odpowiedzi:


5

Spróbuję prostego, intuicyjnego wyjaśnienia. Zapisz, że dla dwumianowej zmiennej losowej XBin(n,p) spodziewamy się, że np a wariancja to np(1p) . Teraz pomyśl, że X rejestruje liczbę zdarzeń w bardzo dużej liczbie n prób, z których każde z bardzo małym prawdopodobieństwem p , tak, że jesteśmy bardzo blisko 1p=1 (naprawdę ). Mamy zatem np=λpowiedzmy, i np(1p)np1=λ , więc zarówno średnia, jak i wariancja są równe λ . Pamiętaj więc, że dla losowej zmiennej rozkładanej poissonem zawsze mamy średnią i wariancję równe! Jest to przynajmniej prawdopodobny argument za przybliżeniem Poissona, ale nie dowód.

Następnie spójrz na to z innego punktu widzenia, proces punktu Poissona https://en.wikipedia.org/wiki/Poisson_point_process na prawdziwej linii. Oto rozkład losowych punktów na linii, który otrzymujemy, jeśli losowe punkty wystąpią zgodnie z zasadami:

  1. punkty w rozłącznych odstępach są niezależne
  2. prawdopodobieństwo losowego punktu w bardzo krótkim przedziale jest proporcjonalne do długości przedziału
  3. prawdopodobieństwo dwóch lub więcej punktów w bardzo krótkim przedziale wynosi zasadniczo zero.

Zatem rozkład liczby punktów w danym przedziale (niekoniecznie krótki) wynosi Poissona (z parametrem proporcjonalnym do długości). Teraz, jeśli podzielimy ten przedział na bardzo wiele, równie bardzo krótkich podinterwali ( n ), prawdopodobieństwo dwóch lub więcej punktów w danej podinterval będzie zasadniczo zerowe, więc liczba ta będzie miała, w bardzo dobrym przybliżeniu, rozkład bernolli, to znaczy Bin ( 1 , p ) , więc suma tego wszystkiego będzie Bin ( n , p ) , więc dobre przybliżenie rozkładu poissona liczby punktów w tym (długim) przedziale.λnBin(1,p)Bin(n,p)

Edytuj z @Ytsen de Boer (OP): na pytanie nr 2 zadowalająco odpowiada @ Łukasz Grad.


6

Pozwól, że przedstawię alternatywną heurystykę. Pokażę, jak aproksymować proces Poissona jako dwumianowy (i argumentować, że aproksymacja jest lepsza dla wielu prób o niskim prawdopodobieństwie). Dlatego rozkład dwumianowy musi mieć tendencję do rozkładu Poissona.

Powiedzmy, że wydarzenia dzieją się ze stałą szybkością w czasie. Chcemy poznać rozkład liczby zdarzeń, które miały miejsce w ciągu dnia, wiedząc, że oczekiwana liczba zdarzeń wynosi λ .

Oczekiwana liczba zdarzeń na godzinę to λ/24 . Udawajmy, że oznacza to, że prawdopodobieństwo wystąpienia zdarzenia w danej godzinie wynosi λ/24 . [to nie do końca właściwe, ale jest to przyzwoite przybliżenie, jeśli λ/241 zasadzie, jeśli możemy założyć, że wiele zdarzeń nie wydarzy się w tej samej godzinie]. Następnie możemy aproksymować rozkład liczby zdarzeń jako dwumianowy z próbami M=24 , z których każde ma prawdopodobieństwo powodzenia λ/24 .

Poprawiamy przybliżenie, zmieniając interwał na minuty. To jest p=λ/1440 z M=1440 prób. Jeśli λ jest w pobliżu, powiedzmy 10, możemy być całkiem pewni, że żadna minuta nie miała dwóch zdarzeń.

Oczywiście będzie lepiej, jeśli przejdziemy do sekund. Teraz patrzymy na M=86400 zdarzeń z małym prawdopodobieństwem λ/86400 .

Bez względu na to jak duże λ jest, mogę w końcu wybrać na tyle mała Δt taki, że jest to bardzo prawdopodobne, że nie ma dwóch zdarzeń zdarzy się w tym samym przedziale. Następnie rozkładu dwumianowego odpowiadające tym Δt będzie doskonale pasuje do prawdziwego rozkładu Poisson'a.

Jedynym powodem, dla którego nie są dokładnie takie same, jest to, że istnieje niezerowe prawdopodobieństwo, że dwa zdarzenia wystąpią w tym samym przedziale czasu. Ale biorąc pod uwagę, że istnieje tylko około zdarzeń λ i są one podzielone na pewną liczbę przedziałów znacznie większych niż λ , jest mało prawdopodobne, aby jakieś dwa z nich leżały w tym samym pojemniku.

Albo innymi słowy, rozkład dwumianowy tendencję do rozkładu Poissona jako M. , jeśli prawdopodobieństwo sukcesu jest p=λ/M. .


5

Pytanie 1

Przypomnijmy definicję rozkładu dwumianowego:

rozkład częstotliwości możliwej liczby wyników zakończonych sukcesem w danej liczbie prób, z których każda ma takie samo prawdopodobieństwo sukcesu.

Porównaj to z definicją rozkładu Poissona:

dyskretny rozkład częstotliwości, który daje prawdopodobieństwo wystąpienia szeregu niezależnych zdarzeń w ustalonym czasie .

Zasadnicza różnica między 2 polega na tym, że dwumian jest w n próbach Poissona jest w okresie czasu . W jaki sposób limit może występować intuicyjnie?t

Powiedzmy, że musisz kontynuować próby Bernoulli przez całą wieczność. Ponadto wykonujesz na minutę. Na minutę liczysz każdy sukces. Tak więc przez całą wieczność co minutę uruchamiasz proces B i n ( p , 30 ) . W ciągu 24 godzin, masz B i n ( p , 43200 ) .n=30Bin(p,30)Bin(p,43200)

Kiedy się zmęczysz, pytasz: „ile sukcesów miało miejsce między 18:00 a 19:00?”. Twoja odpowiedź może wynosić , tzn. Zapewniasz średni sukces w ciągu godziny. Brzmi dla mnie bardzo podobnie do parametru Poissona λ .3060pλ


5

Pytanie 2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

Biorąc limit dla ustalonego N

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1

+1. I started by looking at Stirling's approximation, but started running round in circles. You're approach is much simpler.

I dont think this is what the OP will find intuitive ...
kjetil b halvorsen

@kjetilbhalvorsen I tried to use simplest math possible, intuitively for large M we have MMk for fixed k<<M
Łukasz Grad

1
@kjetilbhalvorsen This is an answer to Q2 (derivation step), not Q1 (intuitive explanation)
Ben Bolker

@TemplateRex Hmm but I think when proving pointwise convergence I only need to prove it for every fixed N, as M goes to infiity, isn't it? That is ωΩlimmXm(ω)X(ω)
Łukasz Grad

5

The problem is that your characterization of the Poisson as a limiting case of the binomial distribution is not quite correct as stated.

The Poisson is a limiting case of the binomial when:

MandMpλ.
The second part is important. If p remains fixed, the first condition implies that the rate will also increase without bound.

What the Poisson distribution assumes is that events are rare. What we mean by "rare" is not that the rate of events is small--indeed, a Poisson process may have a very high intensity λ--but rather, that the probability of an event occurring at any instant in time [t,t+dt) is vanishingly small. This is in contrast to a binomial model where the probability p of an event (e.g. "success") is fixed for any given trial.

To illustrate, suppose we model a series of M independent Bernoulli trials each with probability of success p, and we look at what happens to the distribution of the number of successes X as M. For any N as large as we please, and no matter how small p is, the expected number of successes E[X]=Mp>N for M>N/p. Put another way, no matter how unlikely the probability of success, eventually you can achieve an average number of successes as large as you please if you perform sufficiently many trials. So, M (or, just saying "M is large") is not enough to justify a Poisson model for X.

It is not difficult to algebraically establish

Pr[X=x]=eλλxx!,x=0,1,2,
as a limiting case of
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
by setting p=λ/M and letting M. Other answers here have addressed the intuition behind this relationship and provided computational guidance as well. But it is important that p=λ/M. You can't ignore this.

0

I can only attempt a part answer and it is about the intuition for Question 2, not a rigorous proof.

The binomial coefficient gives you the number of samples of size N, from M, without replacement and without order.

Here though M becomes so large that you may approximate the scenario as sampling with replacement in which case you get MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects can be ordered in N! ways.


-2

Balls falling through layers of pegs

I think this is the best example that intuitively explains how binomial distribution converges to normal with large number of balls. Here, each ball has equal probability of falling on either side of the peg in each layer and all the balls have to face same number of pegs. It can be easily seen that as the number of balls goes very high the distribution of balls in different sections will be like normal distribution.

My answer to your question 2 is same as the answer given by Lukasz.


2
This isn't really answering the question, it answers another question ...
kjetil b halvorsen

I have tried to intuitively explain what asked in question 1. Can you please elaborate why you think it is not an answer to it?
samwise_the_wise

1
Sorry, I got the point now. I answered a completely different question. My bad.
samwise_the_wise

1
I see a heavily discretized version of a binomial distribution. Why should it be obvious that the distribution of balls at the bottom of this quincunx should be normal? Regardless of how many balls you drop through this machine, you will still get a distribution of counts in 13 bins: that cannot possibly be normal!
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.