Odpowiedź udzielona przez miurę nie jest do końca dokładna, dlatego odpowiadam na to stare pytanie dotyczące potomności:
(2). To są bardzo różne rzeczy. Empiryczny plik cdf jest oszacowaniem CDF (dystrybucji), który wygenerował dane. Właśnie dyskretny CDF przypisuje prawdopodobieństwo do każdego obserwowanego punktu danych, , dla każdego . Ten estymator jest zbieżny z prawdziwym cdf: prawie na pewno dla każdego (w rzeczywistości jednakowo).F ( x ) = 11/nx F (x)→F(x)=P(Xı≤x)XF^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x
Rozkład próbkowania statystyki jest natomiast rozkładem statystyki, którego można się spodziewać podczas powtarzanych eksperymentów. Oznacza to, że raz przeprowadzasz eksperyment i zbierasz dane . jest funkcją twoich danych: . Załóżmy teraz, że powtórzysz eksperyment i zbierzesz dane . Ponowne obliczenie T na nowej próbce daje . Jeśli zebraliśmy 100 próbek mielibyśmy 100 szacunki . Te obserwacje tworzą rozkład próbkowania dlaX 1 , … , X n T T = T ( X 1 , … , X n ) X ′ 1 , … , X ′ n T ′ = T ( X ′ 1 , … , X ′ n ) T T T E ( T ) V a r ( T )TX1,…,XnTT=T(X1,…,Xn)X′1,…,X′nT′=T(X′1,…,X′n)TTT. To prawdziwa dystrybucja. Gdy liczba eksperymentów zbliża się do nieskończoności, jej średnia zbiega się do a jej wariancja do .E(T)Var(T)
Na ogół oczywiście nie powtórzyć eksperymenty takie jak ten, tylko my kiedykolwiek zobaczyć jedną instancję . Ustalenie, jaka jest wariancja na podstawie pojedynczej obserwacji, jest bardzo trudne, jeśli nie znasz podstawowej funkcji prawdopodobieństwa a priori. Ładującego jest sposobem na oszacowanie, że rozkład próbkowania przez sztucznie działa „nowe eksperymenty”, na której można obliczyć nowe instancje . Każda nowa próbka jest w rzeczywistości tylko próbką oryginalnych danych. To, że dostarcza ci więcej informacji niż w oryginalnych danych, jest tajemnicze i całkowicie niesamowite.T T T TTTTTT
(1). Masz rację - nie zrobiłbyś tego. Autor próbuje zmotywować parametryczny bootstrap, opisując go jako robienie „tego, co byś zrobił, gdybyś znał rozkład”, ale zastępując bardzo dobry estymator funkcji dystrybucji - empiryczny plik cdf.
Załóżmy na przykład, że wiesz, że twoja statystyka testowa jest zwykle rozkładana ze średnią zero, wariancja jeden. Jak oszacowałbyś rozkład próbkowania ? Cóż, skoro znasz rozkład, głupim i zbędnym sposobem oszacowania rozkładu próbkowania jest użycie R do wygenerowania około 10 000 standardowych normalnych zmiennych losowych, a następnie pobranie ich średniej próbki i wariancji, i użycie ich jako naszych oszacowań średniej i wariancja rozkładu próbkowania .T TTTT
Jeśli nie znamy a priori parametrów , ale wiemy, że jest on normalnie rozłożony, zamiast tego możemy wygenerować około 10 000 próbek z empirycznego cdf, obliczyć na każdym z nich, a następnie wziąć średnią próbki i wariancji z nich 10000 s, i używać ich jako naszych szacunków wartości oczekiwanej i wariancji . Ponieważ empiryczny plik cdf jest dobrym estymatorem prawdziwego pliku cdf, przykładowe parametry powinny być zbieżne z parametrami prawdziwymi. To jest parametryczny bootstrap: stawiasz model na statystyce, którą chcesz oszacować. Model jest indeksowany przez parametr, np. , który szacuje się na podstawie wielokrotnego próbkowania z pliku ecdf.TTTT(μ,σ)
(3). Nieparametryczny bootstrap nawet nie wymaga a priori, aby wiedzieć, że jest zwykle dystrybuowany. Zamiast tego po prostu rysujesz powtarzalne próbki z pliku ecdf i obliczasz na każdym z nich. Po narysowaniu około 10 000 próbek i obliczeniu 10 000 można wykreślić histogram swoich oszacowań. Jest to wizualizacja rozkładu próbkowaniaTTTT. Nieparametryczny bootstrap nie powie ci, że rozkład próbkowania jest normalny, gamma itp., Ale pozwala oszacować rozkład próbkowania (zwykle) tak dokładnie, jak to konieczne. Robi mniej założeń i dostarcza mniej informacji niż parametryczny bootstrap. Jest mniej precyzyjny, gdy parametryczne założenie jest prawdziwe, ale dokładniejszy, gdy jest fałszywy. To, którego użyjesz w każdej napotkanej sytuacji, zależy całkowicie od kontekstu. Wprawdzie więcej osób zna nieparametryczny bootstrap, ale często słabe założenie parametryczne czyni całkowicie trudnym do oszacowania model, co jest piękne.