Zacznę od zaprzeczenia tej przesłance. Robert Geary prawdopodobnie nie przesadził z przypadkiem, gdy powiedział (w 1947 r.) „ ... normalność to mit; nigdy nie było i nigdy nie będzie normalnego rozkładu. ” -
normalny rozkład jest modelem *, przybliżenie, które czasami jest mniej lub bardziej przydatne.
* (o których, patrz George Box , chociaż wolę wersję na moim profilu).
To, że niektóre zjawiska są w przybliżeniu normalne, może nie być wielką niespodzianką, ponieważ sumy niezależnych [lub nawet niezbyt silnie skorelowanych efektów] powinny, jeśli jest ich dużo i żadne nie ma wariancji, która jest znacząca w porównaniu z wariancją suma reszty, którą możemy zobaczyć, rozkład wydaje się wyglądać bardziej normalnie.
Twierdzenie o granicy centralnej (które dotyczy konwergencji do rozkładu normalnego średniej znormalizowanej próbki, gdy idzie w nieskończoność w pewnych łagodnych warunkach) przynajmniej sugeruje, że możemy dostrzec tendencję do tej normalności przy wystarczająco dużych, ale skończonych rozmiarach próby.n
Oczywiście, jeśli znormalizowane środki są w przybliżeniu normalne, znormalizowane kwoty będą; to jest powód rozumowania „suma wielu efektów”. Więc jeśli jest wiele niewielkich wkładów w tę odmianę i nie są one ściśle skorelowane, możesz to zobaczyć.
Twierdzenie Berry'ego-Esseena daje nam stwierdzenie na ten temat (zbieżność w kierunku rozkładów normalnych), które faktycznie dzieje się ze znormalizowanymi próbkami dla danych iid (w nieco bardziej rygorystycznych warunkach niż dla CLT, ponieważ wymaga to, aby trzeci moment absolutny był skończony), a także informowanie nas o tym, jak szybko to się dzieje. Kolejne wersje twierdzenia dotyczą nieidentycznie rozłożonych składników sumy , choć górne granice odchylenia od normalności są mniej ścisłe.
Mniej formalnie zachowanie zwojów o dość dobrych rozkładach daje nam dodatkowe (choć ściśle powiązane) powody, by podejrzewać, że w wielu przypadkach może to być dość dobre przybliżenie w skończonych próbkach. Konwolucja działa jak rodzaj „rozmazywania” operatora, z którym ludzie, którzy używają oszacowania gęstości jądra w różnych jądrach, będą zaznajomieni; po ustandaryzowaniu wyniku (więc wariancja pozostaje stała za każdym razem, gdy wykonujesz taką operację), następuje wyraźny postęp w kierunku coraz bardziej symetrycznych kształtów wzgórz, gdy wielokrotnie wygładzasz (i nie ma to większego znaczenia, jeśli zmieniasz jądro za każdym razem).
Terry Tao daje pewną miłą dyskusję wersjach centralnego twierdzenia granicznego oraz Twierdzenie Berry-Essena tutaj , a po drodze wspomina podejście do non-niezależną wersją Berry-Esseen.
Jest więc co najmniej jedna klasa sytuacji, w których możemy się tego spodziewać, i formalne powody, by sądzić, że tak naprawdę zdarzy się w takich sytuacjach. Jednak w najlepszym razie poczucie, że wynik „sum wielu efektów” będzie normalny, jest przybliżeniem. W wielu przypadkach jest to dość rozsądne przybliżenie (aw dodatkowych przypadkach, chociaż przybliżenie rozkładu nie jest bliskie, niektóre procedury zakładające normalność nie są szczególnie wrażliwe na rozkład poszczególnych wartości, przynajmniej w dużych próbkach).
Istnieje wiele innych okoliczności, w których efekty nie „dodają”, i możemy spodziewać się innych rzeczy; na przykład w przypadku wielu danych finansowych efekty są zwykle zwielokrotnione (efekty będą przenosić kwoty wyrażone w procentach, takie jak na przykład odsetki i inflacja oraz kursy wymiany). Tam nie oczekujemy normalności, ale czasami możemy zaobserwować przybliżone zbliżenie do normalności w skali logarytmicznej. W innych sytuacjach żadne z nich nie może być odpowiednie, nawet w surowym znaczeniu. Na przykład czasy między zdarzeniami zasadniczo nie będą dobrze przybliżone ani przez normalność, ani przez normalność logów; nie ma tutaj „sum” ani „produktów” efektów, o które można by się kłócić. Istnieje wiele innych zjawisk, które możemy argumentować za konkretnym rodzajem „prawa” w określonych okolicznościach.