Kiedy centralne twierdzenie graniczne i prawo wielkich liczb nie zgadzają się


19

Jest to zasadniczo replika pytania, które znalazłem na stronie math.se , na które nie uzyskałem odpowiedzi, na które liczyłem.

Niech {Xi}iN będzie ciągiem niezależnych, identycznie rozmieszczonych zmiennych losowych, z i .E[Xi]=1V[Xi]=1

Rozważ ocenę

limnP(1ni=1nXin)

Wyrażeniem tym należy manipulować, ponieważ, jak to jest, obie strony zdarzenia nierówności mają tendencję do nieskończoności.

A) WYPRÓBUJ ODBIÓR

Przed rozważeniem instrukcji ograniczającej odejmij n z obu stron:

limnP(1ni=1nXinnn)=limnP(1ni=1n(Xi1)0)=Φ(0)=12

ostatnia równość według CLT, gdzie Φ() jest standardową funkcją rozkładu normalnego.

B) WYPRÓBUJ WIELOFIKACJĘ

Pomnóż obie strony przez 1/n

limnP(1n1ni=1nXi1nn)=limnP(1ni=1nXi1)

=limnP(X¯n1)=limnFX¯n(1)=1

gdzie jest funkcją rozkładu średniej próbki , która przez LLN zbiega się w prawdopodobieństwie (a więc także w rozkładzie) do stałej , stąd ostatnia równość.FX¯n()X¯n1

Mamy więc sprzeczne wyniki. Który jest właściwy? A dlaczego ten drugi się myli?


1
@JhohoKokkala Pewnie, oto math.stackexchange.com/q/2830304/87400 Zignoruj ​​błąd OP.
Alecos Papadopoulos

2
Myślę, że problem tkwi w drugim oświadczeniu przywołującym LLN
Glen_b

3
Śledziłem cię aż do ostatecznej równości. Jest to oczywiście błędne, ponieważ spodziewalibyśmy się, że do dla dużego a zatem jego limit nie powinien wynosić Jakie jest zamierzone uzasadnienie tego? Nie jest to stwierdzenie jakiejkolwiek wersji prawa wielkich liczb, które znam. P(X¯n1)1/2n1.
whuber

1
@ whuber Podobno całe prawdopodobieństwo dla średniej próbki koncentruje się na wartości . Jeśli to jest złe, uważam, że ważne jest, aby błąd został szczegółowo opisany w odpowiedzi, taki jest cel tego pytania. 1
Alecos Papadopoulos

2
Alecos, moim zmartwieniem nie jest to, czy ostatni krok jest zły: dotyczy twoich powodów. Czy nie o to w końcu chodzi? Nadal nie przeczytałem nic od ciebie z tych powodów i wahałbym się nawet zgadywać, co to może być. Chociaż odwołujesz się do „LLN”, uważam, że rozwiązanie twojego problemu może polegać na dokładnym opisaniu tego, co rozumiesz jako „LLN”.
whuber

Odpowiedzi:


15

Błąd tu może w następujący fakt konwergencja dystrybucji domyślnie zakłada się, że jest zbieżna z F ( x ) w punktach ciągłości F ( x ) . Ponieważ rozkład granic jest stałą zmienną losową, ma nieciągłość skoku przy x = 1Fn(x)F(x) F(x)x=1 , dlatego błędne jest stwierdzenie, że CDF jest zbieżny z . F(x)=1


1
Sposób, w jaki definiujemy zbieżność w rozkładzie, nie wyklucza możliwości zbieżności w punktach nieciągłości - po prostu tego nie wymaga .
Alecos Papadopoulos

1
Ale jeśli zbieżność w rozkładzie nie wymaga zbieżności z F ( 1 ) , na jakiej podstawie opiera się ostatnia równość w pytaniu? Fn(1)F(1)
Juho Kokkala,

1
@Juho To nie jest oparte na niczym - to sedno sprawy. Nie ma twierdzenia, które pozwalałoby zrobić ostatnie równanie w pytaniu.
whuber

1
@AlecosPapadopoulos: Nigdy nie powiedziałem, że nie wyklucza to możliwości. Mówię domyślnie, że musisz uzasadnić ostatnią równość wykraczającą poza to, co jest ci dane ze zbieżności w dystrybucji. Na przykład, jeśli to Bernoulli, byłoby to prawdą. Xn
Alex R.

11

Dla iid zmiennych losowych z E [ X i ] = var ( X i ) = 1 zdefiniuj XiE[Xi]=var(Xi)=1 Teraz CLT mówi, że dla każdejstałejliczby rzeczywistejz,limnFZn(z)=Φ(z-1). OP stosuje CLT do oceny limnP(Zn1

Zn=1ni=1nXi,Yn=1ni=1nXi.
zlimnFZn(z)=Φ(z1)
limnP(Zn1n)=Φ(0)=12.

Jak wskazały inne odpowiedzi, a także kilka uwag do pytania PO, podejrzana jest ocena PO . Rozważ szczególny przypadek, w którym iid X i są dyskretnymi zmiennymi losowymi przyjmującymi wartości 0 i 2 z jednakowym prawdopodobieństwem 1limnP(Yn1)Xi02 . Teraz n i = 1 Ximoże przyjąćwszystkieparzyste wartości całkowite w[0,2n],a więc gdynjest nieparzyste, n i = 1 Xinie może przyjąć wartościn,a zatemYn=112i=1nXi[0,2n]ni=1nXinnie mogę przyjąć wartości1. Ponadto, ponieważ rozkładYnjest symetryczny około1, mamy, że P(Yn1)=FYn(1)ma wartość1Yn=1ni=1nXi 1Yn1P(Yn1)=FYn(1) gdynjest nieparzyste. Zatemciągliczb P(Y11),P(Y21),,P(Yn1), zawierapodsekwencjęP(Y11),P(Y31),,2k-12n

P(Y11),P(Y21),,P(Yn1),
w którym wszystkie warunki mają wartość 1
P(Y11),P(Y31),,P(Y2k11),
. Z drugiej stronypodsekwencjaP(Y21),P(Y41),,P(Y2k1), jestzbieżnado1. StądlimnP(Yn1)nie istnieje i twierdzenia o zbieżnościP(Yn112
P(Y21),P(Y41),,P(Y2k1),
1limnP(Yn1)P(Yn1) na 1 należy patrzeć z dużą dozą podejrzeń.

8

Twój pierwszy wynik jest prawidłowy. Twój błąd występuje w drugiej części, w następującym błędnym stwierdzeniu:

limnFX¯n(1)=1.

To stwierdzenie jest fałszywe (po prawej stronie powinno być ) i nie wynika to zprawa wielkich liczb,jak twierdzono. Słabe prawo wielkich liczb (na które się powołujesz) mówi, że:12

limnP(|X¯n1|ε)=1for all ε>0.

Dla wszystkich warunek | ˉ X n - 1 | ε obejmuje niektóre wartości, w których ˉ X n1, oraz niektóre wartości, w których ˉ X n > 1 . Dlatego z LLN nie wynika, że lim n P ( ˉ X n1 ) = 1 .ε>0|X¯n1|εX¯n1X¯n>1limnP(X¯n1)=1


1
(Błędny wynik) wynika z implikacji „zbieżność prawdopodobieństwa implikuje zbieżność w rozkładzie”. Pytanie nie stwierdza, że ​​twierdzenie pochodzi bezpośrednio od LLN.
Alecos Papadopoulos

@AlecosPapadopoulos Konwergencja prawdopodobieństwa ma oznaczać zbieżności dystrybucji. Ponownie, zbieżność w dystrybucji jest wymagana tylko w punktach ciągłości. Ale może miałeś na myśli, że zbieżność prawdopodobieństwa nie oznacza punktowej zbieżności rozkładu.
Alex R.

@AlexR. Nie jestem pewien, gdzie leży twój sprzeciw. Uważam, że ten problem jest objęty moją własną odpowiedzią.
Alecos Papadopoulos

3

Zbieżność prawdopodobieństwa oznacza zbieżność w rozkładzie. Ale ... jaka dystrybucja? Jeśli rozkład graniczny ma nieciągłość skoku, wówczas granice stają się niejednoznaczne (ponieważ przy nieciągłości możliwe jest wiele wartości).

gdzie jest funkcją rozkładu średniej próbki ˉ X n , która przez LLN zbiega się w prawdopodobieństwie (a więc również w rozkładzie) do stałej 1 ,FX¯n()X¯n1

This is not right, and it is also easy to show that it can not be right (different from the disagreement between CLT and LLN). The limiting distribution (which can be seen as the limit for a sequence of normal distributed variables) should be:

FX¯(x)={0for x<10.5for x=11for x>1

ϵ>0x|FX¯n(x)FX¯(x)|<ϵ for sufficiently large n. This would fail if FX¯(1)=1 instead of FX¯(1)=0.5


Limit of a normal distribution

It may be helpful to explicitly write out the sum used to invoke the law of large numbers.

X¯n=1ni=1nXiN(1,1n)

The limit n for X^n is actually equivalent to the Dirac Delta function when it is represented as the limit of the normal distribution with the variance going to zero.

Using that expression it is more easy to see what is going on under the hood, rather than using the ready-made laws of the CLT an LLN which obscure the reasoning behind the laws.


Convergence in probability

The law of large numbers gives you 'convergence in probability'

limnP(|X¯n1|>ϵ)=0

with ϵ>0

An equivalent statement could be made for the central limit theorem with limnP(|1n(Xi1)|>ϵn)=0

It is wrong to state that this implies

limnP(|X¯n1|>0)=0

It is less nice that this question is cross-posted so early (confusing, yet interesting to see the different discussions/approaches math vs stats, so not that too bad). The answer by Michael Hardy on the math stackexchange deals with it very effectively in terms of the strong law of large numbers (the same principle as the accepted answer from drhab in the cross posted question and Dilip here). We are almost sure that a sequence X¯1,X¯2,X¯3,...X¯n converges to 1, but this does not mean that limnP(X¯n=1) will be equal to 1 (or it may not even exist as Dilip shows). The dice example in the comments by Tomasz shows this very nicely from a different angle (instead of the limit not existing, the limit goes to zero). The mean of a sequence of dice rolls will converge to the mean of the dice but the probability to be equal to this goes to zero.


Heaviside step function and Dirac delta function

The CDF of X¯n is the following:

FX¯n(x)=12(1+erfx12/n)

with, if you like, limnFX¯n(1)=0.5 (related to the Heaviside step function, the integral of the Dirac delta function when viewed as the limit of normal distribution).


I believe that this view intuitively resolves your question regarding 'show that it is wrong' or at least it shows that the question about understanding the cause of this disagreement of CLT and LLN is equivalent to the question of understanding the integral of the Dirac delta function or a sequence of normal distributions with variance decreasing to zero.


2
Your limiting distribution is in fact not a distribution at all. A CDF must be right continuous, whereas it clearly is not at x=1/2.
Alex R.

The right continuity seems to be necessary such that for every a we have limnFX(a+1n)=FX(a) as the events Xa+1n are nested we should have
limnFX(a+1n)=limnP(Xa+1n)=P(limnXa+1n)=P(Xa)=FX(a)
but is this true for our case and where is the catch? Is this right continuity necessary based on probability axioms or is it just a convention such that the CDF works for most common cases?
Sextus Empiricus

@Martin Weterings: This is precisely where it comes from. Any valid measure P must satisfy these monotonicity results. They are a consequence of the boundedness of P along with countable additivity. More generally, a function F(x) is a CDF (i.e. corresponds to some distribution P via F(b)F(a)=P(a<Xb) iff F is right-continuous, along with being monotonic, and having left limit 0, right limit 1.
Alex R.

2

I believe it should be clear by now that "the CLT approach" gives the right answer.

Let's pinpoint exactly where the "LLN approach" goes wrong.

Starting with the finite statements, it is clear then that we can equivalently either subtract n from both sides, or multliply both sides by 1/n. We get

P(1ni=1nXin)=P(1ni=1n(Xi1)0)=P(1ni=1nXi1)

So if the limit exists, it will be identical. Setting Zn=1ni=1n(Xi1), we have, using distribution functions

P(1ni=1nXin)=FZn(0)=FX¯n(1)

...and it is true that limnFZn(0)=Φ(0)=1/2.

The thinking in the "LLN approach" goes as follows: "We know from the LLN that X¯n converges in probabililty to a constant. And we also know that "convergence in probability implies convergence in distribution". So, X¯n converges in distribution to a constant". Up to here we are correct.
Then we state: "therefore, limiting probabilities for X¯n are given by the distribution function of the constant at 1 random variable",

F1(x)={1x10x<1F1(1)=1

... so limnFX¯n(1)=F1(1)=1...

...and we just made our mistake. Why? Because, as @AlexR. answer noted, "convergence in distribution" covers only the points of continuity of the limiting distribution function. And 1 is a point of discontinuity for F1. This means that limnFX¯n(1) may be equal to F1(1) but it may be not, without negating the "convergence in distribution to a constant" implication of the LLN.

And since from the CLT approach we know what the value of the limit must be (1/2). I do not know of a way to prove directly that limnFX¯n(1)=1/2.

Did we learn anything new?

I did. The LLN asserts that

limnP(|X¯n1|ε)=1for all ε>0

limn[P(1ε<X¯n1)+P(1<X¯n1+ε)]=1

limn[P(X¯n1)+P(1<X¯n1+ε)]=1

The LLN does not say how is the probability allocated in the (1ε,1+ε) interval. What I learned is that, in this class of convergence results, the probability is at the limit allocated equally on the two sides of the centerpoint of the collapsing interval.

The general statement here is, assume

Xnpθ,h(n)(Xnθ)dD(0,V)

where D is some rv with distribution function FD. Then

limnP[Xnθ]=limnP[h(n)(Xnθ)0]=FD(0)

...which may not be equal to Fθ(0) (the distribution function of the constant rv).

Also, this is a strong example that, when the distribution function of the limiting random variable has discontinuities, then "convergence in distribution to a random variable" may describe a situation where "the limiting distribution" may disagree with the "distribution of the limiting random variable" at the discontinuity points. Strictly speaking, the limiting distribution for the continuity points is that of the constant random variable. For the discontinuity points we may be able to calculate the limiting probability, as "separate" entities.


The 'lesson learned' perspective is interesting, and this is a good, not too difficult, example for didactic application. Although I wonder what kind of (direct) practical application this thinking about the infinite has, because eventually in practice n
Sextus Empiricus

@MartijnWeterings Martijn, the motivation here was certainly educational, a) as an alert to discontinuities even in such a "flat" situation as the convergence to a constant, and so also in general (they destroy uniform convergence for example), and b) a result on how the probability mass is allocated becomes interesting when the sequence that converges in probabilty to a constant, still has a non-zero variance.
Alecos Papadopoulos

We could say that CLT let's as say something about convergence to a limiting normal distributed variable (thus being able to express such things as F(x)), but LLN only allows us to say that, by increasing the sample size, we get closer to the true mean, but this does not say that we get, with higher probability, 'exactly equal to the sample mean'. LLN means that the sample mean gets closer and closer to a limiting value but not (with higher probability) equal to it. LLN says nothing about F(x)
Sextus Empiricus

The original thoughts around the LLN where actually opposite (see the reasoning of Arbuthnot stats.stackexchange.com/questions/343268). "It is visible from what has been said, that with a very great Number of Dice, A’s Lot would become very small... there would be but a small part of all the possible Chances, for its happening at any assignable time, that an equal Number of Males and Females should be born."
Sextus Empiricus
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.