Dlaczego centralne twierdzenie graniczne załamuje się w mojej symulacji?

21

Powiedzmy, że mam następujące liczby:

4,3,5,6,5,3,4,2,5,4,3,6,5

Próbkuję niektóre z nich, powiedzmy 5 z nich, i obliczam sumę 5 próbek. Następnie powtarzam to w kółko, aby uzyskać wiele sum, i wykreślam wartości sum w histogramie, który będzie gaussowski z powodu twierdzenia o granicy centralnej.

Ale kiedy podążają za liczbami, właśnie zastąpiłem 4 dużą liczbą:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Sumy próbek z 5 próbek nigdy nie stają się histogramem gaussowskim, ale bardziej przypominają podział i stają się dwoma gaussowskimi. Dlaczego?

central-limit-theorem

— JimSD
źródło

1

Nie zrobi tego, jeśli zwiększysz ją do ponad n = 30 lub więcej ... tylko moje podejrzenie i bardziej zwięzła wersja / ponowne przedstawienie zaakceptowanej odpowiedzi poniżej.

— oemb1905

@JimSD CLT jest wynikiem asymptotycznym (tj. O rozkładzie znormalizowanych średnich próbek lub sum w granicach, gdy wielkość próbki zbliża się do nieskończoności). nie jest . To, na co patrzysz (podejście do normalności w skończonych próbkach), nie jest wyłącznie wynikiem CLT, ale pokrewnym wynikiem.

n = 5

$n=5$

n \to \infty

$n\to\infty$

— Glen_b

3

@ oemb1905 n = 30 nie jest wystarczający dla rodzaju skosu sugerowanego przez OP. W zależności od tego, jak rzadkie jest to zanieczyszczenie o wartości takiej jak , może zająć n = 60 lub n = 100 lub nawet więcej, zanim normalna wygląda na rozsądne przybliżenie. Jeśli zanieczyszczenie wynosi około 7% (jak w pytaniu), n = 120 nadal jest nieco

10^{7}

$10^7$

— wypaczone

2

Możliwy duplikat Dlaczego zwiększenie wielkości próby przewracania monet nie poprawia przybliżenia normalnej krzywej?

— Sextus Empiricus

Pomyśl, że wartości w przedziałach czasowych takich jak (1 100 000, 1 900 000) nigdy nie zostaną osiągnięte. Ale jeśli zarobisz rozsądne kwoty na tych kwotach, zadziała!

— David

18

Przypomnijmy dokładnie, co mówi centralne twierdzenie graniczne.

Jeśli są niezależnymi i identycznie rozmieszczonymi losowymi zmiennymi o (współdzielonej) średniej i odchyleniu standardowym , to zbiega się w rozkładzie do standardowego rozkładu normalnego (*). $X_1, X_2, \cdots, X_k$ $\mu$ $\sigma$ $\frac{X_1 + X_2 + \cdots + X_k}{k\frac{\sigma}{\sqrt{k}}}$ $N(0, 1)$

Jest to często używane w „nieformalnym” formularzu:

Jeśli są niezależnymi i identycznie rozmieszczonymi losowymi zmiennymi o (współdzielonej) średniej i standardowym odchyleniu , to zbiega „w rozkładzie” do standardowego rozkładu normalnego . $X_1, X_2, \cdots, X_k$ $\mu$ $\sigma$ $X_1 + X_2 + \cdots + X_k$ $N(k \mu, \sqrt{k} \sigma)$

Nie ma dobrego sposobu na matematyczną precyzję tej formy CLT, ponieważ zmienia się rozkład dystrybucji „limit”, ale jest to przydatne w praktyce.

Kiedy mamy statyczną listę liczb takich jak

4,3,5,6,5,3,10000000,2,5,4,3,6,5

a my pobieramy próbki losowo, biorąc losową liczbę z tej listy, aby zastosować centralne twierdzenie graniczne, musimy upewnić się, że nasz schemat próbkowania spełnia te dwa warunki niezależności i identycznie rozłożone.

Identyczne rozmieszczenie nie stanowi problemu: każdy numer na liście jest równie prawdopodobne, że zostanie wybrany.
Niezależny jest bardziej subtelny i zależy od naszego schematu próbkowania. Jeśli pobieramy próbki bez zamiany , naruszamy niezależność. Twierdzenie o limicie centralnym ma zastosowanie tylko wtedy, gdy próbkujemy z zamiennikiem.

Tak więc, jeśli użyjemy zastępczego próbkowania w twoim schemacie, powinniśmy być w stanie zastosować centralne twierdzenie o limicie. Jednocześnie masz rację, jeśli nasza próbka ma rozmiar 5, wówczas zobaczymy bardzo różne zachowania w zależności od tego, czy wybrana zostanie bardzo duża liczba, czy nie zostanie wybrana w naszej próbce.

Więc o co chodzi? Cóż, szybkość zbieżności do rozkładu normalnego jest bardzo zależny od kształtu populacji jesteśmy próbkowania od, w szczególności, jeśli nasza populacja jest bardzo pochylać, oczekujemy, że trwać długo zbiegają się normalne. Tak jest w naszym przykładzie, więc nie należy oczekiwać, że próbka o wielkości 5 jest wystarczająca, aby pokazać normalną strukturę.

Powyżej powtórzyłem eksperyment (z zastępczym próbkowaniem) dla próbek o rozmiarach 5, 100 i 1000. Widać, że dla bardzo dużych próbek powstaje normalna struktura.

(*) Uwaga: potrzebne są tutaj pewne warunki techniczne, takie jak średnia skończona i wariancja. Można je łatwo zweryfikować, czy są prawdziwe w naszym próbkowaniu z przykładu z listy.

— Matthew Drury
źródło

Dziękuję za bardzo szybką i idealną odpowiedź. Pomysł CLT, zamiana, potrzeba większej liczby próbek, gdy dystrybucja danych jest przekrzywiona, ... Jest teraz bardzo jasne. Moim pierwotnym celem pytania jest, tak jak wspomniałeś, przypadek, w którym jedna duża liczba jest uwzględniona bez wymiany, a liczba próbek jest ustalona. Zachowuje się bardzo różnie, dlatego też musimy rozważyć „warunkowy” CLT w przypadku, gdy próbka jest pobierana z dużej liczby, a sprawa nie jest próbkowana. Zastanawiam się, czy są jakieś badania lub wcześniejsze prace nad tym .. Ale i tak dziękuję.

— JimSD

nie wiem, czy ma zastosowanie tutaj, ale twierdzenie o konwergencji CLT regulowane przez

— skewness

Jestem trochę zdezorientowany definicją CLT @ MatthewDrury. Myślę, że zbiega się do stałej przez LLN, a nie do normalnego rozkładu.

\frac{\sum X_{k}}{k}

$\frac{\sum X_k}{k}$

— JTH

1

@ seanv507 absolutny trzeci moment zamiast skośności; oba są ze sobą powiązane, ale zauważ, że dla symetrycznego rozkładu ze skończonym trzecim momentem, z którym związały się Berry-Esseen

nie jest

| F_{n} (x) - Φ (x) |

$|F_n(x)-\Phi(x)|$

ρ / σ^{3}

$\rho/\sigma^3$

— równy

1

@Glen_b Tak, byłem trochę nieformalny (co chyba nie powinno być), ale mogę to naprawić tego popołudnia, ponieważ doprowadziło to do pewnego zamieszania.

— Matthew Drury

12

Ogólnie rzecz biorąc, wielkość każdej próbki powinna być większa niż $5$ aby przybliżenie CLT było dobre. Ogólna zasada to próbka o rozmiarze $30$ lub większym. Ale przy populacji z pierwszego przykładu $5$ jest w porządku.

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

W drugim przykładzie, ze względu na kształt rozkładu populacji (po pierwsze, jest on zbyt wypaczony; przeczytaj komentarze faceta i Glen_b poniżej), nawet próbki wielkości $30$ nie dadzą ci dobrego przybliżenia rozkładu średnia próbki przy użyciu CLT.

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Ale przy tej drugiej populacji próbki, powiedzmy, wielkości $100$ są w porządku.

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

— Zen
źródło

3

Problemem nie jest wariancja. Jednym ze sposobów uzyskania rygorystycznej kontroli jest zastosowanie stosunku trzeciego momentu centralnego do sześcianu odchylenia standardowego, jak w twierdzeniu Berry'ego-Esseena.

— facet

Doskonały. Dodany. Tks.

— Zen

1

Dziękujemy za szybką, wizualną i idealną odpowiedź z kodem. Byłem bardzo zaskoczony, jak szybko to było! Nie byłem świadomy odpowiedniej liczby próbkowania. Myślałem o przypadku, w którym liczba próbkowania jest stała.

— JimSD

@guy, dziękuję za to. Nie znałem pojęcia „stosunku trzeciego momentu centralnego do odchylenia standardowego wyrażonego w twierdzeniu Berry'ego-Esseena” . Chciałbym tylko zająć się przypadkiem, w którym w dystrybucji znajduje się jedna duża liczba, na przykład wartość odstająca. Przypuszczam, że do tego rodzaju dystrybucji można się odwoływać, jak wspomniałeś. Jeśli znasz jakieś wcześniejsze prace związane z tego rodzaju dystrybucją, daj mi znać, dziękuję.

— JimSD

2

ρ = E [| X - μ |^{3}]

$\rho=E[|X-\mu|^3]$

μ_{3} = E [(X - μ)^{3}]

$\mu_3=E[(X-\mu)^3]$

7

Chciałbym tylko wyjaśnić, używając złożonych funkcji generujących kumulanty , dlaczego wszyscy obwiniają to za przekrzywienie.

$\mu+\sigma Z$ $\mu$ $\sigma$ $Z$ $0$ $1$ $Z$ $-\frac{1}{2}t^2-\frac{i\gamma_1}{6}t^3+o(t^3)$ $\gamma_1$ $Z$ $\kappa_3$ $\mu+\sigma Z$ $\gamma_1=\sigma^{-3}\kappa_3$

$n$ $Z$ $\sqrt{n}$

n (- \frac{1}{2} {(\frac{t}{\sqrt{n}})}^{2} - \frac{i γ_{1}}{6} {(\frac{t}{\sqrt{n}})}^{3}) + o (t^{3}) = - \frac{1}{2} t^{2} - \frac{i γ_{1}}{6 \sqrt{n}} t^{3} + o (t^{3}) .

$n\left(-\frac{1}{2}\left(\frac{t}{\sqrt{n}}\right)^2-\frac{i\gamma_1}{6}\left(\frac{t}{\sqrt{n}}\right)^3\right)+o(t^3)=-\frac{1}{2}t^2-\frac{i\gamma_1}{6\sqrt{n}}t^3+o(t^3).$

t

$t$

n

$n$

n \propto γ_{1}^{2}

$n\propto\gamma_1^2$

γ_{1}

$\gamma_1$

— JG
źródło

-1

Krótka odpowiedź brzmi: nie masz wystarczająco dużej próbki, aby zastosować twierdzenie o limicie centralnym.

— feynman
źródło

1

To, że nie może to być prawidłowe wyjaśnienie, wynika z obserwacji, że CLT daje dobre przybliżenie pierwszego zestawu danych w pytaniu, który jest równie mały.

— whuber

@whuber: Myślę, że mówisz, że rozkład normalny daje dość dobre przybliżenie dla próbki pięciu z pierwszego zestawu. Ponieważ istnieje tylko skończona liczba wartości dla sum (13 możliwych wartości bez zamiany i 21 możliwych wartości z zamianą), aproksymacja nie poprawia się znacznie przy dużej liczbie próbek pięciu, a wstępne przybliżenie jest bardziej spowodowane początkowy wzór ...

— Henry

@ whuber Ponieważ rozkład pierwszego zestawu wygląda na przekrzywiony w lewo, oczekiwałbym, że suma pięciu również będzie przekrzywiona w lewo, w mniej ekstremalny sposób, niż oczekiwałbym, że suma pięciu z drugiego zestawu będzie przekrzywiona w prawo. Aby uzyskać skośność w celu dalszego zmniejszenia, pomyślałem, że potrzebujesz większej wielkości próbki

— Henry

1

@Henry Dziękujemy za komentarze. Nie wypowiadałem się na temat tych szczególnych okoliczności, a jedynie na temat logiki tej odpowiedzi, mając nadzieję, że można to wyjaśnić dalej.

— whuber