Czy ktoś może przedstawić proste (świeckie) wyjaśnienie związku między rozkładami Pareto a centralnym twierdzeniem granicznym (np. Czy ma zastosowanie? Dlaczego / dlaczego nie?)? Próbuję zrozumieć następujące oświadczenie:
Czy ktoś może przedstawić proste (świeckie) wyjaśnienie związku między rozkładami Pareto a centralnym twierdzeniem granicznym (np. Czy ma zastosowanie? Dlaczego / dlaczego nie?)? Próbuję zrozumieć następujące oświadczenie:
Odpowiedzi:
Oświadczenie nie jest ogólnie prawdziwe - rozkład Pareto ma skończoną średnią, jeśli jego parametr kształtu ( pod linkiem) jest większy niż 1.
Gdy istnieją zarówno średnia, jak i wariancja (), zastosowanie będą miały zwykłe formy centralnego twierdzenia granicznego - np. klasyczne, Lapunow, Lindeberg
Zobacz opis klasycznego centralnego twierdzenia o granicy tutaj
Cytat jest trochę dziwny, ponieważ centralne twierdzenie graniczne (w żadnej z wymienionych form) nie dotyczy samego środka próby, ale standardowego środka (i jeśli spróbujemy zastosować go do czegoś, co jest średnią i wariancją nie skończone, musielibyśmy bardzo dokładnie wyjaśnić, o czym tak naprawdę mówimy, ponieważ licznik i mianownik obejmują rzeczy, które nie mają skończonych granic).
Niemniej jednak (pomimo tego, że nie jest poprawnie wyrażone w odniesieniu do twierdzeń o środkowych limitach), ma on pewien punkt bazowy - średnia próbki nie zbiegnie się ze średnią populacji ( słabe prawo dużych liczb nie ma zastosowania, ponieważ całka definiująca średnią nie jest skończona).
Jak słusznie podkreśla Kjetil w komentarzach, jeśli chcemy uniknąć okropnego konwergencji (tj. Aby móc go wykorzystać w praktyce), potrzebujemy pewnego rodzaju ograniczenia „jak daleko” / „jak szybko” zbliżanie się rozpoczyna. Nie ma sensu mieć odpowiedniego przybliżenia (powiedzmy), jeśli chcemy jakieś praktyczne zastosowanie z normalnego przybliżenia.
Centralne twierdzenie o limicie dotyczy celu podróży, ale nie mówi nam nic o tym, jak szybko się tam dostaniemy; istnieją jednak wyniki, takie jak twierdzenie Berry'ego-Esseena, które wiążą wskaźnik (w pewnym sensie). W przypadku Berry-Esseen granica największej odległości między funkcją rozkładu znormalizowanej średniej a standardową normalną wartością cdf pod względem trzeciego momentu bezwzględnego ().
Tak więc w przypadku Pareto, jeśli , możemy przynajmniej trochę powiązać to, jak złe może być przybliżenie i jak szybko się tam dostaniemy. (Z drugiej strony ograniczenie różnicy w plikach cdfs niekoniecznie musi być szczególnie „praktyczne” do powiązania - to, co Cię interesuje, może nie odnosić się szczególnie dobrze do ograniczenia różnicy w obszarze ogona). Niemniej jednak jest to coś (a przynajmniej w niektórych sytuacjach powiązanie z cdf jest bardziej bezpośrednio przydatne).
Dodam odpowiedź pokazującą, jak złe może być przybliżenie z centralnego twierdzenia granicznego (CLT) dla rozkładu pareto, nawet w przypadku spełnienia założeń dla CLT. Zakłada się, że musi istnieć skończona wariancja, co oznacza dla pareto. Aby uzyskać bardziej teoretyczną dyskusję, dlaczego tak jest, zobacz moją odpowiedź tutaj: Jaka jest różnica między wariancją skończoną a nieskończoną
Symuluję dane z rozkładu pareto z parametrem , tak że wariancja „ledwo istnieje”. Ponów moje symulacje za pomocązobaczyć różnicę! Oto trochę kodu R:
### Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) # for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1 # variance just barely exist
E <- function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))
R <- 10000
e <- E(alpha)
sigma <- sqrt(VAR(alpha))
sim <- function(n) {
replicate(R, {x <- rpareto1(n,alpha,1)
x <- x-e
mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...
### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:
sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)
### Now we plot the histograms:
hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)
A oto fabuła:
Widać to nawet przy wielkości próby jesteśmy daleko od normalnego przybliżenia. Że wariancje empiryczne są znacznie niższe niż prawdziwa wariancja teoretycznawynika to z faktu, że mamy bardzo duży udział w wariancji z części rozkładu w skrajnie prawym ogonie, które nie pojawiają się w większości próbek. Tego należy się spodziewać zawsze, gdy wariancja „ledwo istnieje” . Praktyczny sposób myślenia o tym jest następujący. Często proponuje się rozkłady Pareto w celu modelowania rozkładów dochodów (lub bogactwa). Oczekiwanie na dochód (lub bogactwo) będzie miało bardzo duży wkład od bardzo niewielu miliarderów. Próbkowanie przy użyciu praktycznych rozmiarów próby będzie miało bardzo małe prawdopodobieństwo włączenia do próby dowolnych miliarderów!
Lubię już udzielone odpowiedzi, ale myślę, że „wyjaśnienie osoby świeckiej” jest trochę techniczne, więc spróbuję czegoś bardziej intuicyjnego (zaczynając od równania ...).
Średnia gęstość jest zdefiniowany jako:
Następnie centralne twierdzenie graniczne ustala rozkład odległości między średnią empiryczną i średnia jako funkcja wariancji i (asympotycznie z ). Zobaczmy, co oznacza empiryczny zachowuje się jako funkcja liczby dla gęstości gaussa :
N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()
Jest to typowa realizacja: średnia próbki całkiem dobrze zbiega się ze średnią gęstości (i średnio w sposób podany przez centralne twierdzenie graniczne). Zróbmy to samo dla rozkładu pareto bez średniej (podstawienie rnorma (N, 1,1); według pareto (N, 1,1);)
Jest to również typowa symulacja, od czasu do czasu, średnia próbki różni się bardzo prosto, ponieważ wyjaśniono za pomocą wzoru integralnego, w produkcie , częstotliwość wysokich wartości nie jest wystarczająco mały, aby to zrekompensować jest wysoko. Tak więc średnia nie istnieje, a średnia próbki nie jest zbieżna z żadną typową wartością, a twierdzenie o środkowej granicy nie ma nic do powiedzenia.
Na koniec zauważ, że centralne twierdzenie o granicy dotyczy średniej empirycznej, średniej i wielkości próby i wariancja. Więc wariancja musi także istnieć (szczegóły patrz odpowiedź kjetil b halvorsen).