Jeśli interesująca Cię ilość, zwykle będąca funkcją dystrybucji, jest dość płynna, a twoje dane są ukryte, to zazwyczaj znajdujesz się na dość bezpiecznym terytorium. Oczywiście są też inne okoliczności, w których bootstrap również będzie działał.
Co to znaczy, że bootstrap „zawiedzie”
Mówiąc ogólnie, celem bootstrap jest skonstruowanie przybliżonego rozkładu próbkowania dla statystyki będącej przedmiotem zainteresowania. Nie chodzi o faktyczne oszacowanie parametru. Tak więc, jeśli statystyka będąca przedmiotem zainteresowania (przy pewnym przeskalowaniu i centrowaniu) to i w dystrybucji, chcielibyśmy, aby nasza dystrybucja bootstrap są zbieżne z rozkładem . Jeśli tego nie mamy, nie możemy ufać dokonanym wnioskom.X^nX^n→X∞X∞
Kanoniczny przykład kiedy bootstrap może zawieść, nawet w ramach IWP jest podczas próby przybliżenia rozkładu próbkowania skrajnym statystyki zamówienia. Poniżej znajduje się krótka dyskusja.
Statystyka maksymalnego rzędu losowej próbki z rozkładuU[0,θ]
Niech będą ciągiem iid jednolitych zmiennych losowych na . Niech . Dystrybucja to
(Zauważ, że za pomocą bardzo prostego argumentu faktycznie pokazuje to, że prawdopodobnie, a nawet, prawie na pewno , jeśli wszystkie losowe zmienne są zdefiniowane w tym samym miejscu.)X1,X2,…[0,θ]X(n)=max1≤k≤nXkX(n)
P(X(n)≤x)=(x/θ)n.
X(n)→θ
Obliczenia elementarne dają
lub, innymi słowy, zbiega się w rozkładzie do wykładniczej zmiennej losowej o średniej .
P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,
n(θ−X(n))θ
Teraz tworzymy (naiwny) szacunek ładowania początkowego rozkładu poprzez próbkowanie z zamianą w celu uzyskania i użycie rozkładu z od .n(θ−X(n))X1,…,XnX⋆1,…,X⋆nn(X(n)−X⋆(n))X1,…,Xn
Zauważ jednak, że z prawdopodobieństwem , a zatem rozkład ładowania początkowego ma masę punktową równą zero, nawet asymptotycznie pomimo fakt, że faktyczny rozkład graniczny jest ciągły.X⋆(n)=X(n)1−(1−1/n)n→1−e−1
Mówiąc dokładniej, chociaż prawdziwy rozkład graniczny jest wykładniczy ze średnią , ograniczający rozkład ładowania początkowego umieszcza masę punktową na zero o wielkości niezależnie od faktycznej wartości . Przyjmując wystarczająco dużą, możemy sprawić, że prawdopodobieństwo prawdziwej dystrybucji ograniczającej będzie dowolne dla dowolnego ustalonego interwału , ale bootstrap ( nadal !) Zgłasza, że w tym przedziale istnieje prawdopodobieństwo co najmniej 0,632! Z tego powinno być jasne, że bootstrap może zachowywać się dowolnie źle w tym ustawieniu.θ1−e−1≈0.632 θθ[0,ε)
Podsumowując, bootstrap kończy się niepowodzeniem (niestety) w tym przypadku. W przypadku parametrów znajdujących się na skraju przestrzeni parametrów rzeczy mają się źle.
Przykład z próbki normalnych zmiennych losowych
Istnieją inne podobne przykłady awarii paska startowego w zaskakująco prostych okolicznościach.
Rozważ próbkę z gdzie przestrzeń parametrów dla jest ograniczona do . MLE w tym przypadku to . Ponownie używamy oszacowania bootstrap . Ponownie można wykazać, że rozkład ( od obserwowanej próbki) nie jest zbieżny z tym samym ograniczającym rozkładem co .X1,X2,…N(μ,1)μ[0,∞)X^n=max(X¯,0)X^⋆n=max(X¯⋆,0)n−−√(X^⋆n−X^n)n−−√(X^n−μ)
Wymienne tablice
Być może jednym z najbardziej dramatycznych przykładów jest tablica wymienna. Niech będzie tablicą zmiennych losowych takich, że dla każdej pary macierzy permutacji i , tablice i mają ten sam wspólny rozkład. Oznacza to, że permutowanie wierszy i kolumn utrzymuje niezmienność rozkładu. (Przykładem może być dwukierunkowy model efektów losowych z jedną obserwacją na komórkę, chociaż model jest znacznie bardziej ogólny).Y=(Yij)PQYPYQY
Załóżmy, że chcemy oszacować przedział ufności dla średniej (z powodu opisanego powyżej założenia wymienności średnich wszystkich komórki muszą być takie same).μ=E(Yij)=E(Y11)
McCullagh (2000) rozważył dwa różne naturalne (tj. Naiwne) sposoby bootstrapowania takiej tablicy. Żadne z nich nie ma wariancji asymptotycznej dla średniej próby prawidłowej. Rozważa także kilka przykładów tablic wymiennych w jedną stronę i regresji liniowej.
Bibliografia
Niestety tematyka nie jest błaha, więc żaden z nich nie jest szczególnie łatwy do odczytania.
P. Bickel i D. Freedman, Niektóre asymptotyczne teorie dotyczące bootstrapu . Ann. Stat. , vol. 9, nr 6 (1981) 1196–1217.
DWK Andrews, Niespójność paska ładującego, gdy parametr znajduje się na granicy przestrzeni parametrów , Econometrica , vol. 68, nr 2 (2000), 399–405.
P. McCullagh, Ponowne próbkowanie i wymienne tablice , Bernoulli , vol. 6, nr 2 (2000) 285–301.
EL Lehmann i JP Romano, Testowanie hipotez statystycznych , 3. miejsce. wyd., Springer (2005). [Rozdział 15: Ogólne duże przykładowe metody]