CLT (przynajmniej w niektórych jego różnych formach) mówi, że do granicy, gdy rozkład pojedynczej znormalizowanej średniej próbki ( ) zbiega się do rozkładu normalnego (pod pewnymi warunkami).n → ∞X¯- μσ/ n√
CLT nie mówi nam, co dzieje się przy lub .n = 50n = 50 , 000
Ale próbując zmotywować CLT, zwłaszcza gdy nie ma dowodu na to, że CLT nie jest oferowany, niektórzy polegają na rozkładzie próbkowania dla próbek skończonych i pokazują, że w miarę pobierania większych próbek rozkład próbek zbliża się do normalna.X¯
Ściśle mówiąc, nie jest to demonstracja CLT, jest ona bliższa demonstracji twierdzenia Berry'ego-Esseena, ponieważ pokazuje coś o tempie, w jakim pojawia się podejście do normalności - ale to z kolei doprowadziłoby nas do CLT, więc służy wystarczająco dobrze jako motywacja (i w rzeczywistości często coś takiego jak Berry-Esseen i tak zbliża się do tego, co ludzie faktycznie chcą użyć w skończonych próbkach, tak że motywacja może w pewnym sensie być bardziej przydatna w praktyce niż samo centralne twierdzenie graniczne) .
rozkład tych średnich próbek byłby normalny.
Cóż, nie, byłyby one nienormalne, ale w praktyce byłyby bardzo zbliżone do normalnych (wysokości są nieco pochylone, ale niezbyt pochylone).
[Zauważ ponownie, że CLT naprawdę nie mówi nam nic o zachowaniu średnich próbek dla ; o to mi chodziło w mojej wcześniejszej dyskusji na temat Berry-Esseen, która zajmuje się tym, jak daleko od normalnego cdf funkcja dystrybucji standardowych środków może być dla próbek skończonych]n = 50
Prawdziwym przypadkiem, o którym myślę, jest tworzenie statystyk na zbiorze danych 50 000 użytkowników Twittera. Ten zestaw danych oczywiście nie jest powtarzanymi próbkami, to tylko jedna duża próbka 50 000.
W przypadku wielu dystrybucji średnia przykładowa 50 000 pozycji miałaby bardzo zbliżoną do normalnej dystrybucji - ale nie jest to gwarantowane, nawet przy n = 50 000, że będziesz miał bardzo zbliżoną do normalnej dystrybucji (jeśli rozkład poszczególnych pozycji jest wystarczający na przykład przekrzywiony, wówczas rozkład średnich próbek może być nadal wystarczająco przekrzywiony, aby niemożliwe było utrzymanie normalnego przybliżenia).
(Twierdzenie Berry'ego-Esseena doprowadziłoby nas do przewidywania, że dokładnie ten problem może się pojawić - i to wyraźnie. Tak. Łatwo jest podać przykłady, których dotyczy CLT, ale dla których n = 50 000 nie jest wystarczająco dużą próbką dla znormalizowana próbka oznacza, że jest zbliżona do normy.)