Jakie jest intuicyjne wyjaśnienie centralnego twierdzenia o granicy?


144

W kilku różnych kontekstach odwołujemy się do centralnego twierdzenia granicznego, aby uzasadnić dowolną metodę statystyczną, którą chcemy przyjąć (np. Przybliżenie rozkładu dwumianowego rozkładem normalnym). Rozumiem szczegóły techniczne, dlaczego to twierdzenie jest prawdziwe, ale właśnie przyszło mi do głowy, że tak naprawdę nie rozumiem intuicji stojącej za centralnym twierdzeniem granicznym.

Więc jaka jest intuicja stojąca za centralnym twierdzeniem o granicy?

Wyjaśnienia dla laika byłyby idealne. Jeśli potrzebne są jakieś szczegóły techniczne, proszę założyć, że rozumiem pojęcia pdf, cdf, zmiennej losowej itp., Ale nie mam wiedzy na temat pojęć konwergencji, charakterystycznych funkcji ani nic wspólnego z teorią miary.


8
Dobre pytanie, chociaż moją natychmiastową reakcją, popartą moim ograniczonym doświadczeniem w nauczaniu tego, jest to, że CLT początkowo wcale nie jest intuicyjny dla większości ludzi. Jeśli cokolwiek, to jest sprzeczne z intuicją!
onestop

2
@onestop AMEN! wpatrywanie się w rozkład dwumianowy przy p = 1/2 wraz ze wzrostem n pokazuje, że czai się CLT - ale intuicja, która go zawsze wyczekiwała, mi umknęła.
ronaf,

2
Podobne pytanie z kilkoma fajnymi pomysłami: stats.stackexchange.com/questions/643/…

1
Nie wyjaśnienie, ale ta symulacja może pomóc w zrozumieniu tego.
David Lane

Odpowiedzi:


119

Z góry przepraszam za długość tego postu: z pewnym niepokojem wypuszczam go w ogóle publicznie, ponieważ jego przeczytanie zajmuje trochę czasu i uwagi i bez wątpienia ma błędy typograficzne i wygaśnięcia ekspozycji. Ale tutaj jest to dla tych, którzy są zainteresowani fascynującym tematem, oferowanym w nadziei, że zachęci cię do zidentyfikowania jednej lub więcej z wielu części CLT do dalszego opracowania własnych odpowiedzi.


Większość prób „wyjaśnienia” CLT to ilustracje lub tylko powtórzenia, które twierdzą, że to prawda. Naprawdę wnikliwe, poprawne wyjaśnienie musiałoby wyjaśniać wiele rzeczy.

Zanim przejdziemy do tego dalej, wyjaśnijmy, co mówi CLT. Jak wszyscy wiecie, istnieją wersje różniące się ogólnością. Wspólnym kontekstem jest sekwencja zmiennych losowych, które są pewnymi rodzajami funkcji na wspólnej przestrzeni prawdopodobieństwa. Dla intuicyjnych wyjaśnień, które rygorystycznie się trzymają, pomocne jest myślenie o przestrzeni prawdopodobieństwa jako pudełku z wyróżnialnymi obiektami. Nie ma znaczenia, czym są te obiekty, ale nazywam je „biletami”. Dokonujemy „obserwacji” pudełka, dokładnie mieszając bilety i wyciągając je; bilet ten stanowi obserwację. Po nagraniu do późniejszej analizy zwracamy bilet do pudełka, aby jego zawartość pozostała niezmieniona. „Zmienna losowa” to w zasadzie liczba zapisana na każdym bilecie.

W 1733 r. Abraham de Moivre rozważył przypadek pojedynczego pola, w którym liczby na biletach to tylko zera i jedynki („próby Bernoulliego”), z niektórymi z nich obecnymi. Wyobraził sobie dokonanie niezależnych fizycznie obserwacji, które dadzą sekwencję wartości x 1 , x 2 , , x n , z których wszystkie są równe zero lub jeden. Suma tych wartości y n = x 1 + x 2 + ... + x nnx1,x2,,xnyn=x1+x2++xn, jest losowy, ponieważ warunki w sumie są. Dlatego, gdybyśmy mogli powtórzyć tę procedurę wiele razy, pojawiłyby się różne sumy (liczby całkowite od do n ) o różnych częstotliwościach - proporcjach całości. (Zobacz histogramy poniżej.)0n

Teraz można oczekiwać - i to prawda - że dla bardzo dużych wartości wszystkie częstotliwości byłyby dość małe. Jeśli mielibyśmy być tak odważni (lub głupi), aby próbować „przekroczyć granicę” lub „pozwolić n iść do ”, stwierdzilibyśmy poprawnie, że wszystkie częstotliwości zmniejszają się do zera . Ale jeśli po prostu narysujemy histogram częstotliwości, nie zwracając uwagi na to, jak są oznaczone jego osie, zobaczymy, że wszystkie histogramy dla dużych n zaczynają wyglądać tak samo: w pewnym sensie histogramy zbliżają się do granicy, mimo że częstotliwości wszyscy sami idą do zera.nn0n

Histogramy

Te histogramy przedstawiają wyniki wielokrotnego powtarzania procedury uzyskiwania . n to „liczba prób” w tytułach.ynn

W tym przypadku należy najpierw narysować histogram, a później oznaczyć jego osie . Przy dużej histogram obejmuje duży zakres wartości wyśrodkowanych wokół n / 2 (na osi poziomej) i znikomo mały przedział wartości (na osi pionowej), ponieważ poszczególne częstotliwości stają się dość małe. Dopasowanie tej krzywej do obszaru kreślenia wymagało zatem zarówno przesunięcia, jak i przeskalowania histogramu. Matematyczny opis tego jest taki, że dla każdego n możemy wybrać jakąś centralną wartość m n (niekoniecznie unikalną!), Aby ustawić histogram i pewną wartość skali s nnn/2nmnsn(niekoniecznie wyjątkowy!), aby pasował do osi. Można to zrobić matematycznie, zmieniając na z n = ( y n - m n ) / s n .ynzn=(ynmn)/sn

Pamiętaj, że histogram reprezentuje częstotliwości według obszarów między nim a osią poziomą. Ostateczna stabilność tych histogramów dla dużych wartości powinna być zatem wyrażona w kategoriach powierzchni. n Tak więc wybierz dowolny przedział wartości, który chcesz, powiedzmy od do b > a, a gdy n wzrasta, śledź obszar części histogramu z n, który poziomo obejmuje przedział ( a , b ] . CLT zapewnia kilka rzeczy:ab>anzn(a,b]

  1. Bez względu na to, co i b są,ab jeśli zdecydujemy sekwencje i e n odpowiednio (w sposób, który nie zależy od lub b w ogóle), obszar ten rzeczywiście zbliża się do limitu jak n dostaje duże.mnsnabn

  2. Sekwencje i e n mogą być wybrane w sposób, który zależy tylko od n , średnią z wartości w polu, a niektóre miarę rozprzestrzeniania się tych wartości - ale na nic innego - tak, że niezależnie od tego, co jest w pole jest zawsze takie samo. (Ta uniwersalność jest niesamowita.)mnsnn

  3. W szczególności, że ograniczające obszar oznacza obszar pod krzywą pomiędzyiB: to formuła że powszechne ograniczającego histogramu.y=exp(z2/2)/2πab

    Pierwsze uogólnienie CLT dodaje:

  4. Gdy pole może zawierać liczby oprócz zer i jedynek, zachowują się dokładnie te same wnioski (pod warunkiem, że proporcje bardzo dużych lub małych liczb w polu nie są „zbyt duże”, kryterium, które ma precyzyjne i proste stwierdzenie ilościowe) .

    Kolejne uogólnienie, i być może najbardziej niesamowite, zastępuje to pojedyncze pudełko biletów zamówionym nieskończenie długim zestawem biletów z biletami. Każde pudełko może mieć różne numery na swoich biletach w różnych proporcjach. Obserwacji dokonuje się poprzez wyciągnięcie biletu z pierwszego pola, x 2 pochodzi z drugiego pola i tak dalej.x1x2

  5. Dokładnie takie same wnioski, pod warunkiem, że zawartość pól nie jest „zbyt różna” (istnieje kilka dokładnych, ale różnych, ilościowych charakterystyk tego, co „nie zbyt różne” musi oznaczać; pozwalają one na zadziwiającą szerokość geograficzną).

Tych pięć twierdzeń wymaga co najmniej wyjaśnienia. Jest więcej. We wszystkich instrukcjach ukrytych jest kilka intrygujących aspektów konfiguracji. Na przykład,

  • Co jest specjalnego w tej sumie ? Dlaczego nie mamy centralnych twierdzeń granicznych dla innych matematycznych kombinacji liczb, takich jak ich iloczyn lub ich maksimum? (Okazuje się, robimy, ale nie są one aż tak ogólnie ani też nie zawsze mają taki czysty, prosty wniosek, chyba że mogą być zmniejszone do CLT). Sekwencje i e n nie są unikalne, ale są prawie unikatowe w tym sensie, że ostatecznie muszą zbliżyć oczekiwanie sumy n biletów i odchylenie standardowe sumy odpowiednio (co w pierwszych dwóch instrukcjach CLT wynosi mnsnn krotność standardowego odchylenia od pola). n

    Odchylenie standardowe jest jedną miarą rozkładu wartości, ale w żadnym wypadku nie jest jedyną ani nie jest najbardziej „naturalne”, zarówno pod względem historycznym, jak i do wielu zastosowań. (Na przykład wiele osób wybrałoby coś w rodzaju mediany absolutnego odchylenia od mediany ).

  • Dlaczego SD pojawia się w tak istotny sposób?

  • Rozważ wzór na histogram ograniczający: kto by się spodziewał, że przybierze taką formę? Mówi, że logarytm gęstości prawdopodobieństwa jest funkcją kwadratową . Dlaczego? Czy jest na to jakieś intuicyjne lub jasne, przekonujące wyjaśnienie?


Przyznaję, że nie jestem w stanie osiągnąć ostatecznego celu, jakim jest dostarczenie odpowiedzi, które są wystarczająco proste, aby spełnić trudne kryteria Srikant dotyczące intuicyjności i prostoty, ale naszkicowałem to tło w nadziei, że inni mogą być zainspirowani do wypełnienia niektórych z wielu luk. Myślę, że dobra demonstracja będzie ostatecznie musiała polegać na elementarnej analizie, w jaki sposób mogą powstać wartości między a β n = b s n + m n przy tworzeniu sumy x 1 + x 2 + + x nαn=asn+mnβn=bsn+mnx1+x2++xn. Wracając do wersji CLT z pojedynczym pudełkiem, przypadek rozkładu symetrycznego jest prostszy w obsłudze: jego mediana jest równa jego średniej, więc istnieje 50% szansa, że będzie mniejsza niż średnia skrzynki i 50% szansy że x i będzie większe niż jego średnia. Ponadto, gdy n jest wystarczająco duże, dodatnie odchylenia od średniej powinny kompensować ujemne odchylenia od średniej. (Wymaga to starannego uzasadnienia, a nie tylko machania ręką.) Dlatego powinniśmy przede wszystkim martwić się liczeniem liczby odchyleń dodatnich i ujemnych i martwić się jedynie o ich rozmiary.xixin (Ze wszystkich rzeczy, które tu napisałem, może to być najbardziej przydatne w zapewnieniu pewnej intuicji na temat działania CLT. Rzeczywiście, założenia techniczne potrzebne do urzeczywistnienia uogólnień CLT zasadniczo są różnymi sposobami wykluczenia możliwości, że rzadkie ogromne odchylenia wystarczająco zaburzą równowagę, aby zapobiec powstaniu ograniczającego histogramu).

To w pewnym stopniu pokazuje, dlaczego pierwsze uogólnienie CLT tak naprawdę nie odkrywa niczego, co nie było w oryginalnej wersji testowej Bernoulliego de Moivre.

W tym momencie wygląda na to, że nie ma nic innego, jak zrobić małą matematykę: musimy policzyć liczbę różnych sposobów, w których liczba dodatnich odchyleń od średniej może różnić się od liczby ujemnych odchyleń o dowolną z góry określoną wartość , gdzie ew oczywiście k jest jednym z - n , - n + 2 , , n - 2 , n . Ale ponieważ znikające znikome błędy znikną na granicy, nie musimy liczyć dokładnie; musimy jedynie przybliżać liczby. W tym celu wystarczy o tym wiedziećkkn,n+2,,n2,n

The number of ways to obtain k positive and nk negative values out of n

equals nk+1k

times the number of ways to get k1 positive and nk+1 negative values.

(To idealnie podstawowy wynik, więc nie zawracam sobie głowy zapisaniem uzasadnienia.) Teraz przybliżamy sprzedaż hurtową. Maksymalna częstotliwość występuje, gdy jest tak blisko n / 2, jak to możliwe (również elementarne). Napiszmy m = n / 2 . Następnie, w odniesieniu do maksymalnej częstotliwości, częstotliwość m + j + 1 dodatnich odchyleń ( j 0 ) jest szacowana przez produktkn/2m=n/2m+j+1j0

m+1m+1mm+2mj+1m+j+1

=11/(m+1)1+1/(m+1)12/(m+1)1+2/(m+1)1j/(m+1)1+jot/(m+1).

135 lat przed tym, jak pisał de Moivre, John Napier wynalazł logarytmy w celu uproszczenia mnożenia, więc skorzystajmy z tego. Korzystanie z przybliżenia

log(1-x1+x)-2)x,

stwierdzamy, że log częstotliwości względnej wynosi w przybliżeniu

2/(m+1)4/(m+1)2j/(m+1)=j(j+1)m+1j2m.

Ponieważ błąd skumulowany jest proporcjonalny do , powinien on działać dobrze, pod warunkiem że j 4 jest mały w stosunku do m 3 . Obejmuje to większy zakres wartości j niż jest to konieczne. (Wystarczy, aby aproksymacja działała dla j tylko w kolejności j4/m3j4m3jj których asymptotycznie jest znacznie mniejsza niż wm 3 / 4 ).mm3/4


Oczywiście należy przedstawić znacznie więcej tego rodzaju analiz, aby uzasadnić inne twierdzenia CLT, ale brakuje mi czasu, przestrzeni i energii i prawdopodobnie straciłem 90% ludzi, którzy i tak zaczęli czytać. To proste przybliżenie sugeruje jednak, że de Moivre mógł pierwotnie podejrzewać, że istnieje uniwersalny rozkład graniczny, że jego logarytm jest funkcją kwadratową i że właściwy współczynnik skali musi być proporcjonalny do sn (ponieważj2/m=2j2/n=2(j/n). j2/m=2j2/n=2(j/n)2 Trudno sobie wyobrazić, w jaki sposób można wyjaśnić ten ważny związek ilościowy bez odwoływania się do jakiejś informacji matematycznej i rozumowania; cokolwiek mniej pozostawiłoby dokładny kształt krzywej ograniczającej całkowitą tajemnicę.


5
+1 Przejmie twoją odpowiedź. Przyznaję, że proszenie CLT o intuicję w ramach narzuconych przeze mnie ograniczeń może być prawie niemożliwe.

2
Dziękujemy za poświęcenie czasu na napisanie tego, jest to najbardziej pomocna ekspozycja CLT, jaką widziałem, która jest również bardzo dostępna matematycznie.
Jeremy Radcliff

1
Tak, dość gęsta .... tyle pytań. W jaki sposób pierwszy histogram ma 2 takty (była tylko jedna próba!); czy mogę to po prostu zignorować? I konwencja jest zazwyczaj, aby uniknąć luki pomiędzy poziomych prętów histogramie, prawda? (ponieważ, jak mówisz, obszar jest ważny, a obszar zostanie ostatecznie obliczony na podstawie ciągłej (tj. bez luk) domeny)? Więc też zignoruję luki ...? Nawet miałem luki, kiedy po raz pierwszy próbowałem to zrozumieć :)
The Red Pea

1
@TheRed Dziękujemy za pytania. Zredagowałem pierwszą część tego postu, aby te kwestie były nieco jaśniejsze.
whuber

4
Ach, tak, pomyliłem „liczbę prób = =„ obserwacje ”z„ liczbą powtórzeń (cała procedura) ”. Więc jeśli bilet może mieć tylko wartość dwóch wartości, 0 lub 1 , i obserwujesz tylko jeden bilet, suma wartości tych biletów może być tylko jedną z dwóch rzeczy: 0 lub 1 . Dlatego twój pierwszy histogram ma dwa paski. Ponadto pręty te mają w przybliżeniu jednakową wysokość, ponieważ spodziewamy się, że 0 i 1 wystąpią w równych proporcjach. n
Czerwony groszek

27

Najładniejsza animacja, którą znam: http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

8 poziomych warstw równomiernie rozmieszczonych szpilek, każda warstwa ułożona naprzemiennie, tworzy przeszkodę w stylu „pachinko / jednoręki bandyta” dla kulek wpadających przez te szpilki.  Każda kula opada na dno, a gdy kulki się układają, ich wysokość zbliża się do zarysu krzywej Gaussa.  To pokazuje, że suma wielu niezależnych zdarzeń losowych (warstw) spowoduje Gaussowski rozkład wyników (wysokość stosu kul)

Najprostsze słowa, które przeczytałem: http://elonen.iki.fi/articles/centrallimit/index.en.html

Jeśli zsumujesz wyniki tych dziesięciu rzutów, to, co otrzymasz, będzie prawdopodobnie bliższe 30-40 niż maksimum, 60 (wszystkie szóstki) lub, z drugiej strony, minumum, 10 (wszystkie).

Powodem tego jest to, że można uzyskać średnie wartości na wiele innych sposobów niż skrajności. Przykład: rzucając dwiema kostkami: 1 + 6 = 2 + 5 = 3 + 4 = 7, ale tylko 1 + 1 = 2 i tylko 6 + 6 = 12.

To znaczy: mimo że jedna z sześciu liczb jest równie prawdopodobna przy rzucaniu jedną kością, skrajności są mniej prawdopodobne niż wartości średnie w sumach kilku kości.


20

Intuicja jest podchwytliwa. Jeszcze trudniej jest z teorią w rękach związaną za naszymi plecami.

CLT to suma drobnych, niezależnych zakłóceń. „Sumy” w sensie próby oznaczają „maleńkie” w sensie skończonej wariancji (populacji) i „zakłócenia” w sensie plus / minus wokół wartości centralnej (populacji).

Dla mnie urządzeniem, które najbardziej bezpośrednio odwołuje się do intuicji, jest quincunx lub „pudełko Galtona”, patrz Wikipedia („maszyna do fasoli”?) Chodzi o to, aby przetoczyć małą kulkę po powierzchni deski ozdobionej kratą z równo rozmieszczonymi pinami. Po drodze piłka kieruje się w prawo i w lewo (... losowo, niezależnie) i zbiera się na dole. Z czasem widzimy ładny kopiec w kształcie dzwonu tuż przed naszymi oczami.

CLT mówi to samo. Jest to matematyczny opis tego zjawiska (a ściślej kwinkunx jest fizycznym dowodem normalnego przybliżenia do rozkładu dwumianowego). Mówiąc luźniej, CLT mówi, że dopóki nasza populacja nie jest nadmiernie źle zachowana (to znaczy, jeśli ogony pliku PDF są wystarczająco cienkie), to średnia próbki (odpowiednio wyskalowana) zachowuje się tak, jak ta mała kulka odbijająca się od twarzy quincunx: czasami spada w lewo, czasem spada w prawo, ale przez większość czasu ląduje w środku, w ładnym kształcie dzwonu.

Majestat CLT (dla mnie) polega na tym, że kształt populacji leżącej u podstaw nie ma znaczenia. Kształt odgrywa rolę tylko w takim stopniu, w jakim wyznacza czas oczekiwania (w sensie wielkości próbki).


17

Obserwacja dotycząca CLT może być następująca. Jeśli masz sumę wielu losowych składników, jeśli jeden jest „mniejszy niż zwykle”, jest to w większości kompensowane przez niektóre inne składniki, które są „większe niż zwykle” . Innymi słowy, ujemne odchylenia i dodatnie odchylenia od elementu oznaczają wzajemne znoszenie się w podsumowaniu. Osobiście nie mam jednoznacznej intuicji, dlaczego dokładnie pozostałe odchylenia tworzą rozkład, który wygląda coraz bardziej normalnie, im więcej masz terminów.

S.=X1+X2)++Xn

Istnieje wiele wersji CLT, niektóre silniejsze od innych, niektóre z łagodnymi warunkami, takimi jak umiarkowana zależność między warunkami i / lub nieidentyczne rozkłady dla warunków. W najprostszym do udowodnienia wersje CLT, dowód opiera się zazwyczaj na funkcja tworząca momenty (lub transformaty Laplace'a-Stieltjes lub jakiś inny odpowiedni przekształcić gęstości) sumy . Zapisanie tego jako rozwinięcia Taylora i zachowanie tylko najbardziej dominującego terminu daje generującą moment funkcję normalnego rozkładu. Więc dla mnie osobiście normalność jest czymś, co wynika z szeregu równań i nie mogę zapewnić żadnej innej intuicji niż to.S

Należy jednak zauważyć, że rozkład sumy tak naprawdę nigdy nie jest normalnie rozkładany, podobnie jak CLT nie twierdzi, że tak będzie. Jeśli jest skończone, nadal istnieje pewna odległość do rozkładu normalnego, a jeśli n = ∞, zarówno średnia, jak i wariancja są również nieskończone. W tym drugim przypadku możesz przyjąć średnią nieskończonej sumy, ale wtedy otrzymasz liczbę deterministyczną bez jakiejkolwiek wariancji, którą trudno nazwać „normalnie rozłożoną”.nn=

Może to powodować problemy z praktycznymi zastosowaniami CLT. Zwykle, jeśli jesteś zainteresowany rozkładem blisko jego centrum, CLT działa dobrze. Jednak konwergencja do normalności nie wszędzie jest jednolita, a im bardziej oddalasz się od centrum, tym więcej terminów potrzebujesz w rozsądnym przybliżeniu.S/n

Przy całej „świętości” centralnego twierdzenia granicznego w statystyce jego ograniczenia są często zbyt łatwo przeoczane. Poniżej podaję dwa slajdy z mojego kursu, zwracając uwagę, że CLT całkowicie zawodzi w ogonach, w każdym praktycznym przypadku użycia. Niestety wiele osób używa CLT do oszacowania prawdopodobieństwa ogona, świadomie lub w inny sposób.

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj


5
To świetny materiał i mądra rada. Nie mogę niestety głosować za tym, ponieważ twierdzenia w „Ta normalność jest artefaktem matematycznym i myślę, że poszukiwanie głębszej prawdy lub intuicji nie jest użyteczne” są głęboko niepokojące. Wydają się sugerować, że (1) nie powinniśmy polegać na matematyce, która pomoże nam teoretycznie i (2) przede wszystkim nie ma sensu rozumieć matematyki. Mam nadzieję, że inne posty w tym wątku już daleko idą w kierunku obalenia drugiego twierdzenia. Pierwszy jest tak niespójny, że prawie nie wymaga dalszej analizy.
whuber

2
@whuber. Masz rację, być może jestem poza moją ligą. Będę edytować.
StijnDeVuyst

3
Dziękujemy za ponowne rozważenie problematycznej części i duże +1 za resztę.
whuber

7

Ta odpowiedź ma na celu dać intuicyjne znaczenie centralnego twierdzenia o granicy przy użyciu prostych technik rachunku różniczkowego (ekspansja Taylora rzędu 3). Oto zarys:

  1. Co mówi CLT
  2. Intuicyjny dowód CLT za pomocą prostego rachunku różniczkowego
  3. Dlaczego rozkład normalny?

Na końcu wspomnimy rozkład normalny; ponieważ fakt, że w końcu pojawia się rozkład normalny, nie jest zbyt intuicyjny.

1. Co mówi centralne twierdzenie graniczne? Kilka wersji CLT

Istnieje kilka równoważnych wersji CLT. Instrukcja CLT mówi, że tak naprawdę jestx i dowolnej sekwencji niezależnych zmiennych losowychX1,,Xn ze średnią zero i wariancją 1, Aby zrozumieć, co jestuniwersalneiintuicyjnew CLT, zapomnijmy na chwilę o limicie. Powyższe stwierdzenie mówi, że jeśliX1. ,,Xn iZ

P(X1++Xnnx)n+xet2/22πdt.
X1.,,XnZ1,,Zn
E[f(X1++Xnn)]E[f(Z1++Znn)]n+0
fx
f(t)={1 Jeśli t<x0 Jeśli tx.
X1,,XnZ1,,Zn, pod warunkiem że zmienne losowe są niezależne od średniej zero, wariancja 1.

kX1,,XnZ1,,Znfa

(CONV)E[f(X1++Xnn)]E[f(Z1++Znn)]n+0

Możliwe jest ustalenie równoważności („jeśli i tylko jeśli”) między następującymi stwierdzeniami:

  1. ff(t)=1t<xf(t)=0txx
  2. f:RR
  3. C
  4. fsupxR|f(x)|1

Każdy z 4 punktów powyżej mówi, że zbieżność dotyczy dużej klasy funkcji. Za pomocą argumentu technicznego przybliżenia można wykazać, że cztery powyższe punkty są równoważne, odsyłamy czytelnika do rozdziału 7 na stronie 77 książki Davida Pollarda. Przewodnik użytkownika do pomiaru prawdopodobieństw teoretycznych, z których ta odpowiedź jest bardzo natchniona.

Nasze założenie dla pozostałej części tej odpowiedzi ...

supxR|f(x)|CC>0E[|Xi|3]E[|Zi|3]

E[f(X1++Xnn)]X1,...,Xn

X1,,XnZ1,,Zn

XiZiW=Z1++Zn1h(x)=f(x/n)

h(Z1++Zn1+Xn)=h(W)+Xnh(W)+Xn2h(W)2+Xn3/h(Mn)6h(Z1++Zn1+Zn)=h(W)+Znh(W)+Zn2h(W)2+Zn3h(Mn)6
MnMnXnWE[Xnh(W)]=E[Xn]E[h(W)]=0

(C/6)E[|Xn|3+|Zn|3](n)3.
Cf(n)3h(t)=f(t/n)/(n)3XnZn

Xn1Zn1W~=Z1+Z2++Zn2+Xn

h(Z1++Zn2+Xn1+Xn)=h(W~)+Xn1h(W~)+Xn12h(W~)2+Xn13/h(M~n)6h(Z1++Zn2+Zn1+Xn)=h(W~)+Zn1h(W~)+Zn12h(W~)2+Zn13/h(M~n)6.
Zn1W~Xn1W~

(C/6)E[|Xn1|3+|Zn1|3](n)3.
ZiXin
|E[f(X1++Xnn)]E[f(Z1++Znn)]|n(C/6)maxi=1,,nE[|Xi|3+|Zi|3](n)3.
nX1,,XnZ1,,ZnXiZiO(1/(n)3)XiZiO(1/n)

E[f(X1++Xnn)]X1,,XnE[Xi]=E[Zi]=0,E[Zi2]=E[Xi2]=1

3. Dlaczego rozkład normalny?

E[f(X1++Xnn)]XiO(1/n)

E[f(X1++Xnn)]

X1,,Xn(X1++Xn)/n jest łatwy do obliczenia lub zapamiętania.

N(0,1)Z1,,ZnN(0,1)Z1++ZnnN(0,1)nZN(0,1)

E[f(Z1++Znn)]=E[f(Z)],
X1,,XnE[Xi]=0,E[Xi2]=1 , następnie

|E[f(X1++Xnn)]E[f(Z)|supxR|f(x)|maxi=1,,nE[|Xi|3+|Z|3]6n.

Wydaje się, że przestrzegasz prawa wielkich liczb zamiast CLT.
whuber

1
E[f((X1+...+Xn)/n)]E[f(Z)]ZN(0,1)f

2
Rozumiem, co masz na myśli. Wstrzymuje mnie to, że twoje twierdzenie dotyczy tylko oczekiwań, a nie dystrybucji, podczas gdy CLT wyciąga wnioski na temat ograniczenia dystrybucji. Równoważność między nimi może nie być od razu oczywista dla wielu. Czy mogę zatem zasugerować, aby zapewnić wyraźne powiązanie między wyciągiem a zwykłymi wyciągami CLT pod względem ograniczenia dystrybucji? (
Nawiasem

1

Zrezygnowałem z prób opracowania intuicyjnej wersji i wymyśliłem kilka symulacji. Mam taki, który przedstawia symulację Quincunx i kilka innych, które robią takie rzeczy, jak pokazanie, jak nawet skośny surowy czas reakcji stanie się normalny, jeśli zbierzesz wystarczającą liczbę RT na temat. Myślę, że pomagają, ale w tym roku są nowi w mojej klasie i nie oceniłem jeszcze pierwszego testu.

Jedną rzeczą, którą uważałem za dobrą, było również wykazanie prawa wielkich liczb. Mogę pokazać, jak zmienne są rzeczy przy małych próbkach, a następnie pokazać, jak stabilizują się przy dużych próbkach. Robię też wiele innych demo. Potrafię pokazać interakcję w Quincunx między liczbą losowych procesów a liczbą próbek.

(okazuje się, że niemożność użycia kredy lub białej tablicy w mojej klasie mogła być błogosławieństwem)


Cześć John: Miło cię widzieć z tym postem po prawie dziewięciu latach! Interesujące byłoby przeczytanie o doświadczeniach, które w międzyczasie korzystałeś z symulacji, aby nauczyć się pojęcia CLT i LLN.
whuber

Rok później przestałem uczyć tę klasę, ale kolejny instruktor podszedł do pomysłu na symulację. W rzeczywistości przenosi go znacznie dalej i opracował sekwencję błyszczących aplikacji, a uczniowie bawią się symulacjami dla wielu rzeczy w klasie 250 osób. Tak blisko, jak mogę powiedzieć z nauczania wyższej klasy, uczniowie wydają się czerpać z tego wiele. Widoczna jest różnica między jego uczniami a uczniami z równoważnych klas żywieniowych. (ale oczywiście jest tam wiele niekontrolowanych zmiennych)
Jan

Dziękuję, John. Otrzymywanie nawet anegdotycznych informacji zwrotnych na temat trwałych wyników uczniów po zakończeniu zajęć jest tak niezwykłe , że nawet te ograniczone informacje są dla mnie interesujące.
whuber

-8

Po dodaniu razem wielu histogramów rozkładów losowych albo zachowujesz normalny kształt rozkładu, ponieważ wszystkie poszczególne histogramy mają już ten kształt, albo otrzymujesz ten kształt, ponieważ wahania poszczególnych histogramów mają tendencję do wzajemnego znoszenia się, jeśli dodasz duży liczba histogramów. Histogram losowego rozkładu jednej zmiennej jest już w przybliżeniu rozłożony w taki sposób, że ludzie zaczęli nazywać rozkład normalny, ponieważ jest tak powszechny i ​​jest to mikrokosmos centralnego twierdzenia o granicy.

To nie jest cała historia, ale myślę, że jest tak intuicyjna, jak to tylko możliwe.


2
Twój opis „rozkładu normalnego” brzmi zamiast tego jak dyskretna wersja podwójnego wykładniczego, który nawet nie jest podobny do rozkładu normalnego Gaussa (z wyjątkiem tego, że oba są jednomodalne i symetryczne). Histogram rzutów monetą nie ma słupków, które zmniejszają się o współczynnik2)z każdym krokiem! Sugeruje to, że w tym wyjaśnieniu mogą pojawić się pewne trudności, na które zwrócił się apel do „intuicji”.
whuber

5
Ta odpowiedź jest w większości nonsensowna. Żadna liczba rzutów uczciwej monety nie spowoduje podziału liczby głów, która ma prawdopodobieństwo18,14,12),14,18; w rzeczywistości nie jest to nawet funkcja masy prawdopodobieństwa! Ani też liczba sztuk w rzędzie mają nic wspólnego z pytaniem.
Dilip Sarwate
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.