Możemy do tego podejść na różne sposoby, z których każde może wydawać się intuicyjne dla niektórych osób, a mniej intuicyjne dla innych. Aby uwzględnić taką zmienność, w tej odpowiedzi przeanalizowano kilka takich podejść, obejmujących główne podziały myśli matematycznej - analizę (nieskończoną i nieskończenie małą), geometrię / topologię (relacje przestrzenne) i algebrę (formalne wzory manipulacji symbolicznych) - jako samo prawdopodobieństwo. Jego zwieńczeniem jest obserwacja, która jednoczy wszystkie cztery podejścia, pokazuje, że należy odpowiedzieć na prawdziwe pytanie i dokładnie pokazuje, na czym polega problem. Każde podejście zapewnia na swój sposób głębszy wgląd w naturę kształtów funkcji rozkładu prawdopodobieństwa sum niezależnych zmiennych jednorodnych.
tło
Uniform dystrybucja[0,1] ma kilka podstawowych informacji. Gdy ma taki rozkład,X
Szansa, że leży w mierzalnym zbiorze jest tylko miarą (długością) , zapisaną.A A ∩ [ 0 , 1 ] | A ∩ [ 0 , 1 ] |XAA∩[0,1]|A∩[0,1]|
Z tego wynika, że funkcja skumulowanego rozkładu (CDF) jest natychmiastowa
FX(x)=Pr(X≤x)=|(−∞,x]∩[0,1]|=|[0,min(x,1)]|=⎧⎩⎨⎪⎪0x1x<00≤x≤1x>1.
Funkcja gęstości prawdopodobieństwa (PDF), która jest pochodną CDF, wynosi dla a przeciwnym razie. (Jest niezdefiniowany dla i )0 ≤ x ≤ 1 f X ( x ) = 0 0 1fX(x)=10≤x≤1fX(x)=001
Intuicja z funkcji charakterystycznych (analiza)
Funkcja charakterystyczna (CF) każdej zmiennej losowej jest oczekiwanie (gdzie to jednostka urojona, ). Korzystając z pliku PDF jednolitej dystrybucji, możemy obliczyćexp ( i t X ) i i 2 = - 1Xexp(itX)ii2=−1
ϕX(t)=∫∞−∞exp(itx)fX(x)dx=∫10exp(itx)dx=exp(itx)it∣∣∣x=1x=0=exp(it)−1it.
CF jest (wersją) transformacji Fouriera w pliku PDF, . Najbardziej podstawowe twierdzenia o transformatach Fouriera to:ϕ(t)=f^(t)
CF sumy zmiennych niezależnych jest iloczynem ich CF.X+Y
Gdy oryginalny plik PDF jest ciągły, a jest ograniczony, można odzyskać z CF przez ściśle powiązaną wersję transformacji Fouriera,X f ϕfXfϕ
f(x)=ϕˇ(x)=12π∫∞−∞exp(−ixt)ϕ(t)dt.
Gdy jest różniczkowalna, jego pochodną można obliczyć pod znakiem integralnym:f
f′(x)=ddx12π∫∞−∞exp(−ixt)ϕ(t)dt=−i2π∫∞−∞texp(−ixt)ϕ(t)dt.
Aby to było dobrze zdefiniowane, ostatnia całka musi zbiegać się absolutnie; to jest,
∫∞−∞|texp(−ixt)ϕ(t)|dt=∫∞−∞|t||ϕ(t)|dt
musi zbiegać się do wartości skończonej. I odwrotnie, kiedy się zbiega, pochodna istnieje wszędzie dzięki tym formułom inwersyjnym.
Teraz jest już jasne, jak różniczkowalny jest PDF dla sumy jednolitych zmiennych: od pierwszego punktu CF sumy zmiennych iid jest CF jednej z nich podniesionej do potęgi , tutaj równa się . Licznik jest ograniczony (składa się z fal sinusoidalnych), a mianownik to . Możemy pomnożyć taki całka przez i nadal będzie on absolutnie zbieżny, gdy i zbiegnie się warunkowo, gdy . Tak więc wielokrotne stosowanie trzeciego punktu pokazuje, że PDF dla sumy jednolitych zmiennych będzie wynosił w sposób ciągłyn th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) t s s < n - 1 s = n - 1 n n - 2 n - 1nnth(exp(it)−1)n/(it)nO(tn)tss<n−1s=n−1nn−2razy różniczkowalna, aw większości miejsc będzie razy różniczkowalna.n−1
Niebieska cieniowana krzywa jest logarytmicznym wykresem wartości bezwzględnej rzeczywistej części CF sumy iid jednolitych zmiennych. Przerywana czerwona linia jest asymptotą; jego nachylenie wynosi , co pokazuje, że plik PDF jest razy różny. Dla porównania, krzywa szara rysuje rzeczywistą część CF dla podobnie ukształtowanej funkcji Gaussa (normalny PDF).- 10 10 - 2 = 8n=10−1010−2=8
Intuicja z prawdopodobieństwa
Niech i będą niezależnymi zmiennymi losowymi, w których ma rozkład równomierny . Rozważmy wąski przedział . Rozkładamy szansę, że na szansę, że jest wystarczająco blisko tego przedziału razy szansę, że ma odpowiedni rozmiar umieścić w tym przedziale, biorąc pod uwagę, że jest wystarczająco blisko:X X [ 0 , 1 ] ( t , t + d t ] X + Y ∈ ( t , t + d t ] Y X X + Y YYXX[0,1](t,t+dt]X+Y∈(t,t+dt]YXX+YY
fX+Y(t)dt=Pr(X+Y∈(t,t+dt])=Pr(X+Y∈(t,t+dt]|Y∈(t−1,t+dt])Pr(Y∈(t−1,t+dt])=Pr(X∈(t−Y,t−Y+dt]|Y∈(t−1,t+dt])(FY(t+dt)−FY(t−1))=1dt(FY(t+dt)−FY(t−1)).
Ostateczna równość wynika z wypowiedzi dla PDF . Dzieląc obie strony przez i przyjmując limit jak dajed t d t → 0Xdtdt→0
fX+Y(t)=FY(t)−FY(t−1).
Innymi słowy, dodanie zmiennej Uniform do dowolnej zmiennej zmienia pdf w zróżnicowany CDF . Ponieważ PDF jest pochodną CDF, oznacza to, że za każdym razem, gdy dodajemy niezależną zmienną jednolitą do , wynikowy PDF jest raz bardziej zróżnicowany niż wcześniej.[0,1]XYfYFY(t)−FY(t−1)Y
Załóżmy, zastosować tę wiedzę, począwszy od jednolitej zmiennej . Oryginalnego pliku PDF nie można odróżnić od lub : jest tam nieciągły. PDF jest różniczkowalną w , lub , ale musi być ciągły w tych punktach, ponieważ jest to różnica całek PDF . Dodaj kolejną niezależną zmienną jednolitą : plik PDF jest różniczkowalny w , , i ale niekoniecznie ma drugiY01Y+X012YX2Y+X+X2 0123instrumenty pochodne w tych punktach. I tak dalej.
Intuicja z geometrii
CDF w sumy zmiennej iid uniform jest równy objętości jednostkowego hipersześcianu leżącego w półprzestrzeni . Sytuacja dla zmiennych jest pokazana tutaj, przy ustawionym na , , a następnie .tn[0,1]nx1+x2+⋯+xn≤tn=3t1/23/25/2
Gdy przechodzi od do , hiperpłaszczyzna przecina wierzchołki przy , . Za każdym razem zmienia się kształt przekroju: na rysunku najpierw jest trójkąt ( sympleks), następnie sześciokąt, a następnie trójkąt. Dlaczego plik PDF nie ma ostrych zagięć przy tych wartościach ?t0nHn(t):x1+x2+⋯+xn=tt=0t=1,…,t=n2t
Aby to zrozumieć, najpierw rozważ małe wartości . Tutaj hiperpłaszczyzna odcina -simplex. Wszystkie wymiary simpleksu są wprost proporcjonalne do , skąd jego „obszar” jest proporcjonalny do . Pewna notacja przyda się później. Niech będzie „funkcją kroku jednostkowego”tHn(t)n−1n−1ttn−1θ
θ(x)={01x<0x≥0.
Gdyby nie obecność innych rogów hipersześcianu, skalowanie kontynuowałoby się w nieskończoność. Wykres pola -simplex wyglądałby jak jednolita niebieska krzywa poniżej: jest zerowa przy wartościach ujemnych i wynosina pozytywnym, dogodnie napisane. Ma „załamanie” rzędu na początku, w tym sensie, że wszystkie pochodne przez rząd istnieją i są ciągłe, ale że lewe i prawe pochodne rzędu istnieją, ale nie zgadzają się na początku .n−1tn−1/(n−1)!θ(t)tn−1/(n−1)!n−2n−3n−2
(Pozostałe krzywe pokazane na tym rysunku to (Czerwony), (Złoty) i (Czarny). Ich role w przypadku omówiono poniżej.)−3θ(t−1)(t−1)2/2!3θ(t−2)(t−2)2/2!−θ(t−3)(t−3)2/2!n=3
Aby zrozumieć, co dzieje się, gdy przecina , przyjrzyjmy się szczegółowo przypadkowi , w którym cała geometria zachodzi w płaszczyźnie. Możemy postrzegać jednostkę „sześcian” (teraz tylko kwadrat) jako liniową kombinację kwadrantów , jak pokazano tutaj:t1n=2
Pierwszy kwadrant pojawia się w lewym dolnym panelu, w kolorze szarym. Wartość wynosi , określając linię ukośną pokazaną na wszystkich pięciu panelach. CDF równa się żółtemu obszarowi pokazanemu po prawej stronie. Ten żółty obszar składa się z:t1.5
Trójkątny szary obszar w lewym dolnym panelu,
minus trójkątny zielony obszar w lewym górnym panelu,
minus trójkątny czerwony obszar w dolnym środkowym panelu,
plus dowolny niebieski obszar w górnym środkowym panelu (ale nie ma takiego obszaru, nie będzie też, dopóki przekroczy ).t2
Każdy z tych obszarów jest obszarem trójkąta. Pierwszy skaluje się jak , następne dwa mają zero dla a w przeciwnym razie skalują jak , a ostatni wynosi zero dla i poza tym skaluje się jak . Ta analiza geometryczna wykazała, że CDF jest proporcjonalny do = ; równoważnie plik PDF jest proporcjonalny do sumy trzech funkcji , i2n=4tn=t2t<1(t−1)n=(t−1)2t<2(t−2)nθ(t)t2−θ(t−1)(t−1)2−θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t2−2θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t−2θ(t−1)(t−1)θ(t−2)(t−2)(każdy skaluje się liniowo, gdy ). Lewy panel tego rysunku pokazuje ich wykresy: oczywiście wszystkie są wersjami oryginalnego wykresu , ale (a) przesunięto o , i jednostki w prawo i (b) przeskalowano o Odpowiednio i .n=2θ(t)t0121−21
Prawy panel pokazuje sumę tych wykresów (jednolita czarna krzywa, znormalizowana w celu uzyskania pola jednostkowego: jest to dokładnie wyglądający kątowo plik PDF pokazany w pierwotnym pytaniu.
Teraz możemy zrozumieć naturę „załamań” w pliku PDF dowolnej sumy zmiennych jednolitych iid. Wszystkie są dokładnie takie same jak „załamanie” występujące przy w funkcji , ewentualnie przeskalowane i przesunięte do liczb całkowitych odpowiadające miejscu, w którym hiperpłaszczyzna przecina wierzchołki hipersześcianu. Dla jest to widoczna zmiana kierunku: prawa pochodna przy wynosi podczas gdy jej lewa pochodna wynosi . Dla jest to ciągłość0θ(t)tn−11,2,…,nHn(t)n=2θ(t)t001n=3zmiana kierunku, ale nagła (nieciągła) zmiana drugiej pochodnej. W przypadku ogólnego będą występowały ciągłe pochodne poprzez rząd ale nieciągłość w pochodnej .nn−2n−1st
Intuicja z manipulacji algebraicznej
Integracja w celu obliczenia CF, forma warunkowego prawdopodobieństwa w analizie probabilistycznej oraz synteza hipersześcianu jako liniowej kombinacji kwadrantów sugerują powrót do pierwotnego rozkładu równomiernego i ponowne wyrażenie go jako liniowej kombinacji prostszych rzeczy . Rzeczywiście, jego plik PDF można zapisać
fX(x)=θ(x)−θ(x−1).
Przedstawiamy operator przesunięcia : działa na dowolną funkcję , przesuwając wykres o jedną jednostkę w prawo:Δf
(Δf)(x)=f(x−1).
Formalnie zatem dla PDF jednolitej zmiennej możemy napisaćX
fX=(1−Δ)θ.
Plik PDF sumy iid mundurów to splot ze sobą razy. Wynika to z definicji sumy zmiennych losowych: splot dwóch funkcji i jest funkcjąnfXnfg
(f⋆g)(x)=∫∞−∞f(x−y)g(y)dy.
Łatwo jest sprawdzić, czy splot dojeżdża do . Wystarczy zmienić zmienną całkowania z na :Δyy+1
(f⋆(Δg))=∫∞−∞f(x−y)(Δg)(y)dy=∫∞−∞f(x−y)g(y−1)dy=∫∞−∞f((x−1)−y)g(y)dy=(Δ(f⋆g))(x).
Dla PDF sumy IID mundurach, możemy teraz przystąpić do pisania algebraicznien
f=f⋆nX=((1−Δ)θ)⋆n=(1−Δ)nθ⋆n
(gdzie „ ” moc ”oznacza powtarzane splot, a nie punktowe mnożenie!). Teraz jest bezpośrednią, elementarną integracją, dającą⋆nθ⋆n
θ⋆n(x)=θ(x)xn−1n−1!.
Reszta to algebra, ponieważ stosuje się twierdzenie dwumianowe (jak ma to miejsce w każdej algebrze przemiennej nad rzeczywistością):
f=(1−Δ)nθ⋆n=∑i=0n(−1)i(ni)Δiθ⋆n.
Ponieważ po prostu przesuwa swój argument o , pokazuje PDF jako liniową kombinację przesuniętych wersji , dokładnie tak, jak wywnioskowaliśmy geometrycznie:Δiifθ(x)xn−1
f(x)=1(n−1)!∑i=0n(−1)i(ni)(x−i)n−1θ(x−i).
(John Cook cytuje tę formułę później w swoim blogu, używając notacji dla .) ( x - i ) n - 1 θ ( x - i )(x−i)n−1+(x−i)n−1θ(x−i)
W związku z tym, ponieważ jest wszędzie płynną funkcją, każde zachowanie PDF będzie występować tylko w miejscach, w których jest liczbą pojedynczą (oczywiście tylko ) i w tych miejscach przesuniętych w prawo o . Charakter tego pojedynczego zachowania - stopień gładkości - będzie zatem taki sam we wszystkich lokalizacjach . θ ( x ) 0 1 , 2 , … , n n + 1xn−1θ(x)01,2,…,nn+1
Ilustruje to obraz dla , pokazujący (w lewym panelu) poszczególne warunki w sumie i (w prawym panelu) częściowe sumy, kończące się samą sumą (jednolita czarna krzywa):n=8
Komentarze końcowe
Warto zauważyć, że to ostatnie podejście w końcu dostarczyło zwartego, praktycznego wyrażenia do obliczania PDF sumy iid jednorodnych zmiennych. (Wzór na CDF jest podobnie uzyskany.)n
Centralne twierdzenie o granicy nie ma tu wiele do powiedzenia. W końcu suma zmiennych dwumianowych iid jest zbieżna z rozkładem normalnym, ale ta suma jest zawsze dyskretna: nigdy nawet nie ma pliku PDF! Nie powinniśmy mieć nadziei, że jakiekolwiek intuicje dotyczące „załamań” lub innych miar różnicowania pliku PDF będą pochodzić z CLT.