Z góry przepraszam za długość tego postu: z pewnym niepokojem wypuszczam go w ogóle publicznie, ponieważ jego przeczytanie zajmuje trochę czasu i uwagi i bez wątpienia ma błędy typograficzne i wygaśnięcia ekspozycji. Ale tutaj jest to dla tych, którzy są zainteresowani fascynującym tematem, oferowanym w nadziei, że zachęci cię do zidentyfikowania jednej lub więcej z wielu części CLT do dalszego opracowania własnych odpowiedzi.
Większość prób „wyjaśnienia” CLT to ilustracje lub tylko powtórzenia, które twierdzą, że to prawda. Naprawdę wnikliwe, poprawne wyjaśnienie musiałoby wyjaśniać wiele rzeczy.
Zanim przejdziemy do tego dalej, wyjaśnijmy, co mówi CLT. Jak wszyscy wiecie, istnieją wersje różniące się ogólnością. Wspólnym kontekstem jest sekwencja zmiennych losowych, które są pewnymi rodzajami funkcji na wspólnej przestrzeni prawdopodobieństwa. Dla intuicyjnych wyjaśnień, które rygorystycznie się trzymają, pomocne jest myślenie o przestrzeni prawdopodobieństwa jako pudełku z wyróżnialnymi obiektami. Nie ma znaczenia, czym są te obiekty, ale nazywam je „biletami”. Dokonujemy „obserwacji” pudełka, dokładnie mieszając bilety i wyciągając je; bilet ten stanowi obserwację. Po nagraniu do późniejszej analizy zwracamy bilet do pudełka, aby jego zawartość pozostała niezmieniona. „Zmienna losowa” to w zasadzie liczba zapisana na każdym bilecie.
W 1733 r. Abraham de Moivre rozważył przypadek pojedynczego pola, w którym liczby na biletach to tylko zera i jedynki („próby Bernoulliego”), z niektórymi z nich obecnymi. Wyobraził sobie dokonanie niezależnych fizycznie obserwacji, które dadzą sekwencję wartości x 1 , x 2 , … , x n , z których wszystkie są równe zero lub jeden. Suma tych wartości y n = x 1 + x 2 + ... + x nnx1,x2,…,xnyn=x1+x2+…+xn, jest losowy, ponieważ warunki w sumie są. Dlatego, gdybyśmy mogli powtórzyć tę procedurę wiele razy, pojawiłyby się różne sumy (liczby całkowite od do n ) o różnych częstotliwościach - proporcjach całości. (Zobacz histogramy poniżej.)0n
Teraz można oczekiwać - i to prawda - że dla bardzo dużych wartości wszystkie częstotliwości byłyby dość małe. Jeśli mielibyśmy być tak odważni (lub głupi), aby próbować „przekroczyć granicę” lub „pozwolić n iść do ∞ ”, stwierdzilibyśmy poprawnie, że wszystkie częstotliwości zmniejszają się do zera . Ale jeśli po prostu narysujemy histogram częstotliwości, nie zwracając uwagi na to, jak są oznaczone jego osie, zobaczymy, że wszystkie histogramy dla dużych n zaczynają wyglądać tak samo: w pewnym sensie histogramy zbliżają się do granicy, mimo że częstotliwości wszyscy sami idą do zera.nn∞0n
Te histogramy przedstawiają wyniki wielokrotnego powtarzania procedury uzyskiwania . n to „liczba prób” w tytułach.ynn
W tym przypadku należy najpierw narysować histogram, a później oznaczyć jego osie . Przy dużej histogram obejmuje duży zakres wartości wyśrodkowanych wokół n / 2 (na osi poziomej) i znikomo mały przedział wartości (na osi pionowej), ponieważ poszczególne częstotliwości stają się dość małe. Dopasowanie tej krzywej do obszaru kreślenia wymagało zatem zarówno przesunięcia, jak i przeskalowania histogramu. Matematyczny opis tego jest taki, że dla każdego n możemy wybrać jakąś centralną wartość m n (niekoniecznie unikalną!), Aby ustawić histogram i pewną wartość skali s nnn/2nmnsn(niekoniecznie wyjątkowy!), aby pasował do osi. Można to zrobić matematycznie, zmieniając na z n = ( y n - m n ) / s n .ynzn=(yn−mn)/sn
Pamiętaj, że histogram reprezentuje częstotliwości według obszarów między nim a osią poziomą. Ostateczna stabilność tych histogramów dla dużych wartości powinna być zatem wyrażona w kategoriach powierzchni. n Tak więc wybierz dowolny przedział wartości, który chcesz, powiedzmy od do b > a, a gdy n wzrasta, śledź obszar części histogramu z n, który poziomo obejmuje przedział ( a , b ] . CLT zapewnia kilka rzeczy:ab>anzn(a,b]
Bez względu na to, co i b są,ab jeśli zdecydujemy sekwencje i e n odpowiednio (w sposób, który nie zależy od lub b w ogóle), obszar ten rzeczywiście zbliża się do limitu jak n dostaje duże.mnsnabn
Sekwencje i e n mogą być wybrane w sposób, który zależy tylko od n , średnią z wartości w polu, a niektóre miarę rozprzestrzeniania się tych wartości - ale na nic innego - tak, że niezależnie od tego, co jest w pole jest zawsze takie samo. (Ta uniwersalność jest niesamowita.)mnsnn
W szczególności, że ograniczające obszar oznacza obszar pod krzywą pomiędzyiB: to formuła że powszechne ograniczającego histogramu.y=exp(−z2/2)/2π−−√ab
Pierwsze uogólnienie CLT dodaje:
Gdy pole może zawierać liczby oprócz zer i jedynek, zachowują się dokładnie te same wnioski (pod warunkiem, że proporcje bardzo dużych lub małych liczb w polu nie są „zbyt duże”, kryterium, które ma precyzyjne i proste stwierdzenie ilościowe) .
Kolejne uogólnienie, i być może najbardziej niesamowite, zastępuje to pojedyncze pudełko biletów zamówionym nieskończenie długim zestawem biletów z biletami. Każde pudełko może mieć różne numery na swoich biletach w różnych proporcjach. Obserwacji dokonuje się poprzez wyciągnięcie biletu z pierwszego pola, x 2 pochodzi z drugiego pola i tak dalej.x1x2
Dokładnie takie same wnioski, pod warunkiem, że zawartość pól nie jest „zbyt różna” (istnieje kilka dokładnych, ale różnych, ilościowych charakterystyk tego, co „nie zbyt różne” musi oznaczać; pozwalają one na zadziwiającą szerokość geograficzną).
Tych pięć twierdzeń wymaga co najmniej wyjaśnienia. Jest więcej. We wszystkich instrukcjach ukrytych jest kilka intrygujących aspektów konfiguracji. Na przykład,
Co jest specjalnego w tej sumie ? Dlaczego nie mamy centralnych twierdzeń granicznych dla innych matematycznych kombinacji liczb, takich jak ich iloczyn lub ich maksimum? (Okazuje się, robimy, ale nie są one aż tak ogólnie ani też nie zawsze mają taki czysty, prosty wniosek, chyba że mogą być zmniejszone do CLT). Sekwencje i e n nie są unikalne, ale są prawie unikatowe w tym sensie, że ostatecznie muszą zbliżyć oczekiwanie sumy n biletów i odchylenie standardowe sumy odpowiednio (co w pierwszych dwóch instrukcjach CLT wynosi √mnsnn krotność standardowego odchylenia od pola). n−−√
Odchylenie standardowe jest jedną miarą rozkładu wartości, ale w żadnym wypadku nie jest jedyną ani nie jest najbardziej „naturalne”, zarówno pod względem historycznym, jak i do wielu zastosowań. (Na przykład wiele osób wybrałoby coś w rodzaju mediany absolutnego odchylenia od mediany ).
Dlaczego SD pojawia się w tak istotny sposób?
Rozważ wzór na histogram ograniczający: kto by się spodziewał, że przybierze taką formę? Mówi, że logarytm gęstości prawdopodobieństwa jest funkcją kwadratową . Dlaczego? Czy jest na to jakieś intuicyjne lub jasne, przekonujące wyjaśnienie?
Przyznaję, że nie jestem w stanie osiągnąć ostatecznego celu, jakim jest dostarczenie odpowiedzi, które są wystarczająco proste, aby spełnić trudne kryteria Srikant dotyczące intuicyjności i prostoty, ale naszkicowałem to tło w nadziei, że inni mogą być zainspirowani do wypełnienia niektórych z wielu luk. Myślę, że dobra demonstracja będzie ostatecznie musiała polegać na elementarnej analizie, w jaki sposób mogą powstać wartości między a β n = b s n + m n przy tworzeniu sumy x 1 + x 2 + … + x nαn=asn+mnβn=bsn+mnx1+x2+…+xn. Wracając do wersji CLT z pojedynczym pudełkiem, przypadek rozkładu symetrycznego jest prostszy w obsłudze: jego mediana jest równa jego średniej, więc istnieje 50% szansa, że będzie mniejsza niż średnia skrzynki i 50% szansy że x i będzie większe niż jego średnia. Ponadto, gdy n jest wystarczająco duże, dodatnie odchylenia od średniej powinny kompensować ujemne odchylenia od średniej. (Wymaga to starannego uzasadnienia, a nie tylko machania ręką.) Dlatego powinniśmy przede wszystkim martwić się liczeniem liczby odchyleń dodatnich i ujemnych i martwić się jedynie o ich rozmiary.xixin (Ze wszystkich rzeczy, które tu napisałem, może to być najbardziej przydatne w zapewnieniu pewnej intuicji na temat działania CLT. Rzeczywiście, założenia techniczne potrzebne do urzeczywistnienia uogólnień CLT zasadniczo są różnymi sposobami wykluczenia możliwości, że rzadkie ogromne odchylenia wystarczająco zaburzą równowagę, aby zapobiec powstaniu ograniczającego histogramu).
To w pewnym stopniu pokazuje, dlaczego pierwsze uogólnienie CLT tak naprawdę nie odkrywa niczego, co nie było w oryginalnej wersji testowej Bernoulliego de Moivre.
W tym momencie wygląda na to, że nie ma nic innego, jak zrobić małą matematykę: musimy policzyć liczbę różnych sposobów, w których liczba dodatnich odchyleń od średniej może różnić się od liczby ujemnych odchyleń o dowolną z góry określoną wartość , gdzie ew oczywiście k jest jednym z - n , - n + 2 , … , n - 2 , n . Ale ponieważ znikające znikome błędy znikną na granicy, nie musimy liczyć dokładnie; musimy jedynie przybliżać liczby. W tym celu wystarczy o tym wiedziećkk−n,−n+2,…,n−2,n
The number of ways to obtain k positive and n−k negative values out of n
equals n−k+1k
times the number of ways to get k−1 positive and n−k+1 negative values.
(To idealnie podstawowy wynik, więc nie zawracam sobie głowy zapisaniem uzasadnienia.) Teraz przybliżamy sprzedaż hurtową. Maksymalna częstotliwość występuje, gdy jest tak blisko n / 2, jak to możliwe (również elementarne). Napiszmy m = n / 2 . Następnie, w odniesieniu do maksymalnej częstotliwości, częstotliwość m + j + 1 dodatnich odchyleń ( j ≥ 0 ) jest szacowana przez produktkn/2m=n/2m+j+1j≥0
m+1m+1mm+2⋯m−j+1m+j+1
=1−1/(m+1)1+1/(m+1)1−2/(m+1)1+2/(m+1)⋯1−j/(m+1)1+j/(m+1).
135 lat przed tym, jak pisał de Moivre, John Napier wynalazł logarytmy w celu uproszczenia mnożenia, więc skorzystajmy z tego. Korzystanie z przybliżenia
log( 1 - x1 + x) ∼-2x,
stwierdzamy, że log częstotliwości względnej wynosi w przybliżeniu
−2/(m+1)−4/(m+1)−⋯−2j/(m+1)=−j(j+1)m+1∼−j2m.
Ponieważ błąd skumulowany jest proporcjonalny do , powinien on działać dobrze, pod warunkiem że j 4 jest mały w stosunku do m 3 . Obejmuje to większy zakres wartości j niż jest to konieczne. (Wystarczy, aby aproksymacja działała dla j tylko w kolejności √j4/m3j4m3jj których asymptotycznie jest znacznie mniejsza niż wm 3 / 4 ).m−−√m3/4
Oczywiście należy przedstawić znacznie więcej tego rodzaju analiz, aby uzasadnić inne twierdzenia CLT, ale brakuje mi czasu, przestrzeni i energii i prawdopodobnie straciłem 90% ludzi, którzy i tak zaczęli czytać. To proste przybliżenie sugeruje jednak, że de Moivre mógł pierwotnie podejrzewać, że istnieje uniwersalny rozkład graniczny, że jego logarytm jest funkcją kwadratową i że właściwy współczynnik skali musi być proporcjonalny do √sn (ponieważj2/m=2j2/n=2(j/ √n−−√). j2/m=2j2/n=2(j/n−−√)2 Trudno sobie wyobrazić, w jaki sposób można wyjaśnić ten ważny związek ilościowy bez odwoływania się do jakiejś informacji matematycznej i rozumowania; cokolwiek mniej pozostawiłoby dokładny kształt krzywej ograniczającej całkowitą tajemnicę.