Twierdzenie o granicy centralnej i rozkład Pareto

Czy ktoś może przedstawić proste (świeckie) wyjaśnienie związku między rozkładami Pareto a centralnym twierdzeniem granicznym (np. Czy ma zastosowanie? Dlaczego / dlaczego nie?)? Próbuję zrozumieć następujące oświadczenie:

„Twierdzenie o granicy centralnej nie działa z każdym rozkładem. Wynika to z jednego podstępnego faktu - średnie próbki są skupione wokół średniej rozkładu podstawowego, jeśli istnieje. Ale jak rozkład może nie mieć znaczenia? Cóż, jeden wspólny rozkład nie ma to znaczenia dla rozkładu Pareto. Jeśli spróbujesz go obliczyć zwykłymi metodami, rozchodzi się w nieskończoność. ”

— użytkownik1222447
źródło

Odpowiedzi:

Oświadczenie nie jest ogólnie prawdziwe - rozkład Pareto ma skończoną średnią, jeśli jego parametr kształtu ( $\alpha$ pod linkiem) jest większy niż 1.

Gdy istnieją zarówno średnia, jak i wariancja ( $\alpha>2$ ), zastosowanie będą miały zwykłe formy centralnego twierdzenia granicznego - np. klasyczne, Lapunow, Lindeberg

Zobacz opis klasycznego centralnego twierdzenia o granicy tutaj

Cytat jest trochę dziwny, ponieważ centralne twierdzenie graniczne (w żadnej z wymienionych form) nie dotyczy samego środka próby, ale standardowego środka (i jeśli spróbujemy zastosować go do czegoś, co jest średnią i wariancją nie skończone, musielibyśmy bardzo dokładnie wyjaśnić, o czym tak naprawdę mówimy, ponieważ licznik i mianownik obejmują rzeczy, które nie mają skończonych granic).

Niemniej jednak (pomimo tego, że nie jest poprawnie wyrażone w odniesieniu do twierdzeń o środkowych limitach), ma on pewien punkt bazowy - średnia próbki nie zbiegnie się ze średnią populacji ( słabe prawo dużych liczb nie ma zastosowania, ponieważ całka definiująca średnią nie jest skończona).

Jak słusznie podkreśla Kjetil w komentarzach, jeśli chcemy uniknąć okropnego konwergencji (tj. Aby móc go wykorzystać w praktyce), potrzebujemy pewnego rodzaju ograniczenia „jak daleko” / „jak szybko” zbliżanie się rozpoczyna. Nie ma sensu mieć odpowiedniego przybliżenia $n> 10^{10^{100}}$ (powiedzmy), jeśli chcemy jakieś praktyczne zastosowanie z normalnego przybliżenia.

Centralne twierdzenie o limicie dotyczy celu podróży, ale nie mówi nam nic o tym, jak szybko się tam dostaniemy; istnieją jednak wyniki, takie jak twierdzenie Berry'ego-Esseena, które wiążą wskaźnik (w pewnym sensie). W przypadku Berry-Esseen granica największej odległości między funkcją rozkładu znormalizowanej średniej a standardową normalną wartością cdf pod względem trzeciego momentu bezwzględnego ( $E(|X|^3)$ ).

Tak więc w przypadku Pareto, jeśli $\alpha\gt 3$ , możemy przynajmniej trochę powiązać to, jak złe może być przybliżenie $n$ i jak szybko się tam dostaniemy. (Z drugiej strony ograniczenie różnicy w plikach cdfs niekoniecznie musi być szczególnie „praktyczne” do powiązania - to, co Cię interesuje, może nie odnosić się szczególnie dobrze do ograniczenia różnicy w obszarze ogona). Niemniej jednak jest to coś (a przynajmniej w niektórych sytuacjach powiązanie z cdf jest bardziej bezpośrednio przydatne).

— Glen_b - Przywróć Monikę
źródło

Ale jeśli wariancja ledwo istnieje, to znaczy

α > 2

$\alpha > 2$ ale bardzo blisko, centralne twierdzenie o granicy, choć stosowane w zasadzie, może prowadzić do bardzo złych przybliżeń. Aby mieć kontrolę nad jakością aproksymacji, potrzebujesz czegoś takiego jak twierdzenie Berry'ego-Esseena, które wymaga trzeciej chwili, to znaczy

α > 3

$\alpha > 3$ .

— kjetil b halvorsen

@kjetil całkiem tak; w praktyce potrzebujesz więcej niż sekundy, ponieważ konwergencja może być bezużytecznie powolna.

— Glen_b

Tak, dodam odpowiedź, aby to pokazać!

— kjetil b halvorsen

Niektóre rozkłady, które nie są zgodne z twierdzeniem o limicie centralnym, można znormalizować, aby uzyskać spójne prawo.

— Michael R. Chernick

Świetna dyskusja tutaj. Wish stackexchange miał sposób na śledzenie odpowiedzi / komentarzy ludzi;)

— Chan-Ho Suh

Dodam odpowiedź pokazującą, jak złe może być przybliżenie z centralnego twierdzenia granicznego (CLT) dla rozkładu pareto, nawet w przypadku spełnienia założeń dla CLT. Zakłada się, że musi istnieć skończona wariancja, co oznacza dla pareto $\alpha > 2$ . Aby uzyskać bardziej teoretyczną dyskusję, dlaczego tak jest, zobacz moją odpowiedź tutaj: Jaka jest różnica między wariancją skończoną a nieskończoną

Symuluję dane z rozkładu pareto z parametrem $\alpha=2.1$ , tak że wariancja „ledwo istnieje”. Ponów moje symulacje za pomocą $\alpha=3.1$ zobaczyć różnicę! Oto trochę kodu R:

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

A oto fabuła:

Widać to nawet przy wielkości próby $n=10000$ jesteśmy daleko od normalnego przybliżenia. Że wariancje empiryczne są znacznie niższe niż prawdziwa wariancja teoretyczna $\sigma^2=1$ wynika to z faktu, że mamy bardzo duży udział w wariancji z części rozkładu w skrajnie prawym ogonie, które nie pojawiają się w większości próbek. Tego należy się spodziewać zawsze, gdy wariancja „ledwo istnieje” . Praktyczny sposób myślenia o tym jest następujący. Często proponuje się rozkłady Pareto w celu modelowania rozkładów dochodów (lub bogactwa). Oczekiwanie na dochód (lub bogactwo) będzie miało bardzo duży wkład od bardzo niewielu miliarderów. Próbkowanie przy użyciu praktycznych rozmiarów próby będzie miało bardzo małe prawdopodobieństwo włączenia do próby dowolnych miliarderów!

— kjetil b halvorsen
źródło

Lubię już udzielone odpowiedzi, ale myślę, że „wyjaśnienie osoby świeckiej” jest trochę techniczne, więc spróbuję czegoś bardziej intuicyjnego (zaczynając od równania ...).

Średnia gęstość $p$ jest zdefiniowany jako:

μ = \int x \cdot p (x) d x

$\mu = \int x \cdot p(x) dx$ Tak rażąco rzecz biorąc, średnia to „suma ponad

x

$x$ "produktu między gęstością przy

x

$x$ i

x

$x$ samo. Kiedy

x

$x$ dąży do nieskończoności gęstość przy

p (x)

$p(x)$ musi zniknąć wystarczająco, aby produkt

x \cdot p (x)

$x \cdot p(x)$ nie idzie w nieskończoność (w wyniku czego suma też). Kiedy

p (x)

$p(x)$ nie znika wystarczająco, produkt przechodzi w nieskończoność, całka przechodzi w nieskończoność,

μ

$\mu$ nie istnieje i wreszcie

p

$p$ nie ma znaczenia Tak jest w przypadku Pareto dla niektórych wartości parametrów.

Następnie centralne twierdzenie graniczne ustala rozkład odległości między średnią empiryczną $\bar{x}=\frac{1}{n} \sum_i x_i$ i średnia $\mu$ jako funkcja wariancji $p$ i $n$ (asympotycznie z $n$ ). Zobaczmy, co oznacza empiryczny $\bar{x}$ zachowuje się jako funkcja liczby $n$ dla gęstości gaussa $p$ :

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

Jest to typowa realizacja: średnia próbki całkiem dobrze zbiega się ze średnią gęstości (i średnio w sposób podany przez centralne twierdzenie graniczne). Zróbmy to samo dla rozkładu pareto bez średniej (podstawienie rnorma (N, 1,1); według pareto (N, 1,1);)

Jest to również typowa symulacja, od czasu do czasu, średnia próbki różni się bardzo prosto, ponieważ wyjaśniono za pomocą wzoru integralnego, w produkcie $p(x) \cdot x$ , częstotliwość wysokich wartości $x$ nie jest wystarczająco mały, aby to zrekompensować $x$ jest wysoko. Tak więc średnia nie istnieje, a średnia próbki nie jest zbieżna z żadną typową wartością, a twierdzenie o środkowej granicy nie ma nic do powiedzenia.

Na koniec zauważ, że centralne twierdzenie o granicy dotyczy średniej empirycznej, średniej i wielkości próby $n$ i wariancja. Więc wariancja $\int (x-\mu)^2 p(x) dx$ musi także istnieć (szczegóły patrz odpowiedź kjetil b halvorsen).

— peuhp
źródło