Dlaczego centralne twierdzenie graniczne działa z jedną próbką?


12

Zawsze uczono mnie, że CLT działa, gdy powtarzasz próbkowanie, a każda próbka jest wystarczająco duża. Wyobraź sobie na przykład, że mam kraj 1 000 000 obywateli. Rozumiem, że CLT jest taki, że nawet jeśli rozkład ich wysokości nie był normalny, gdybym pobrał 1000 próbek 50 osób (tj. Przeprowadził 1000 ankiet po 50 obywateli każda), a następnie obliczył ich średnią wysokość dla każdej próbki, rozkład tej próbki środki byłyby normalne.

Jednak nigdy nie widziałem rzeczywistego przypadku, w którym badacze pobierali powtarzające się próbki. Zamiast tego pobierają jedną dużą próbę (tj. Badają 50 000 obywateli na temat ich wzrostu) i na tej podstawie pracują.

Dlaczego książki statystyczne uczą powtarzającego się pobierania próbek, a w prawdziwym świecie badacze przeprowadzają tylko jedną próbkę?

Edycja: Prawdziwym przypadkiem, o którym myślę, jest tworzenie statystyk na zbiorze danych 50 000 użytkowników Twittera. Ten zestaw danych oczywiście nie jest powtarzanymi próbkami, to tylko jedna duża próbka 50 000.


Pobranie próbki 1000 z 50 000 jest prawie takie samo jak pobranie 1000 pojedynczych próbek niezależnie od 50 000. Im mniejsza próbka (lub większy wszechświat), tym bardziej wyglądają podobnie.
Thomas Ahle,

Odpowiedzi:


14

CLT (przynajmniej w niektórych jego różnych formach) mówi, że do granicy, gdy rozkład pojedynczej znormalizowanej średniej próbki ( ) zbiega się do rozkładu normalnego (pod pewnymi warunkami).nX¯-μσ/n

CLT nie mówi nam, co dzieje się przy lub .n=50n=50,000

Ale próbując zmotywować CLT, zwłaszcza gdy nie ma dowodu na to, że CLT nie jest oferowany, niektórzy polegają na rozkładzie próbkowania dla próbek skończonych i pokazują, że w miarę pobierania większych próbek rozkład próbek zbliża się do normalna.X¯

Ściśle mówiąc, nie jest to demonstracja CLT, jest ona bliższa demonstracji twierdzenia Berry'ego-Esseena, ponieważ pokazuje coś o tempie, w jakim pojawia się podejście do normalności - ale to z kolei doprowadziłoby nas do CLT, więc służy wystarczająco dobrze jako motywacja (i w rzeczywistości często coś takiego jak Berry-Esseen i tak zbliża się do tego, co ludzie faktycznie chcą użyć w skończonych próbkach, tak że motywacja może w pewnym sensie być bardziej przydatna w praktyce niż samo centralne twierdzenie graniczne) .

rozkład tych średnich próbek byłby normalny.

Cóż, nie, byłyby one nienormalne, ale w praktyce byłyby bardzo zbliżone do normalnych (wysokości są nieco pochylone, ale niezbyt pochylone).

[Zauważ ponownie, że CLT naprawdę nie mówi nam nic o zachowaniu średnich próbek dla ; o to mi chodziło w mojej wcześniejszej dyskusji na temat Berry-Esseen, która zajmuje się tym, jak daleko od normalnego cdf funkcja dystrybucji standardowych środków może być dla próbek skończonych]n=50

Prawdziwym przypadkiem, o którym myślę, jest tworzenie statystyk na zbiorze danych 50 000 użytkowników Twittera. Ten zestaw danych oczywiście nie jest powtarzanymi próbkami, to tylko jedna duża próbka 50 000.

W przypadku wielu dystrybucji średnia przykładowa 50 000 pozycji miałaby bardzo zbliżoną do normalnej dystrybucji - ale nie jest to gwarantowane, nawet przy n = 50 000, że będziesz miał bardzo zbliżoną do normalnej dystrybucji (jeśli rozkład poszczególnych pozycji jest wystarczający na przykład przekrzywiony, wówczas rozkład średnich próbek może być nadal wystarczająco przekrzywiony, aby niemożliwe było utrzymanie normalnego przybliżenia).

(Twierdzenie Berry'ego-Esseena doprowadziłoby nas do przewidywania, że ​​dokładnie ten problem może się pojawić - i to wyraźnie. Tak. Łatwo jest podać przykłady, których dotyczy CLT, ale dla których n = 50 000 nie jest wystarczająco dużą próbką dla znormalizowana próbka oznacza, że ​​jest zbliżona do normy.)


Aby sprawdzić, czy 50 000 jest wystarczająco duże, można na przykład wykonać symulację w języku R, prawda? Użyłbym średniej i odchylenia standardowego próbki, ale w jaki sposób miałbym symulować z tego samego rozkładu mojej próbki?
Amonet

Ściśle mówiąc, musisz przeprowadzić symulację z rozkładu populacji. Państwo mogli leczyć dystrybucję próbkę jako oszacowanie rozkładu populacji (ta jest zbliżona do ładowania początkowego) - ale to nie będzie wystarczające dla takiego celu. Jako przykład rozważ pobranie próbki z rozkładu Cauchy'ego, a następnie ponowne próbkowanie z tego z zamianą. (w przypadku coraz większych próbek), dopóki rozkład ponownie próbkowanych środków nie będzie „wystarczająco normalny”. Będziesz zawsze stwierdzić, że niektóre skończoną wielkość próby jest wystarczająca, ale w rzeczywistości nigdy nie będzie.
Glen_b
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.