Pytania dotyczące parametrycznego i nieparametrycznego bootstrapu

14

Czytam rozdział o częstych statystykach z książki Kevina Murphy'ego „ Machine Learning - A Probabilistic Perspective ”. Sekcja na temat bootstrap brzmi:

Bootstrap to prosta technika Monte Carlo do przybliżenia rozkładu próbkowania. Jest to szczególnie przydatne w przypadkach, gdy estymator jest złożoną funkcją prawdziwych parametrów.

Pomysł jest prosty. Gdybyśmy znali prawdziwe parametry , moglibyśmy wygenerować wiele (powiedzmy ) fałszywych zestawów danych, każdy o rozmiarze , z prawdziwego rozkładu , dla . Następnie możemy obliczyć nasz estymator dla każdej próbki, i użyć rozkładu empirycznego otrzymanych próbek jako naszego oszacowania rozkładu próbkowania. Ponieważ jest nieznany, ideą parametrycznego ładowania początkowego jest generowanie próbek za pomocą . $θ^∗$ $S$ $N$ $x_i^s \sim p (·| θ^∗ )$ $s = 1 : S, i = 1 : N$ $\hat{\theta^s}=f (x^s_{1:N})$ $\theta$ $\hat{\theta}(D)$

Alternatywą, zwaną nieparametrycznym bootstrapem , jest próbkowanie (z zamiennikiem) z oryginalnych danych , a następnie obliczenie rozkładu indukowanego jak poprzednio. Niektóre metody przyspieszenia ładowania początkowego w przypadku zastosowania do ogromnych zestawów danych omówiono w (Kleiner i in. 2011). $x^s_i$ $D$

1 . Tekst mówi:

Gdybyśmy znali prawdziwe parametry ... moglibyśmy obliczyć nasz estymator dla każdej próbki, ... $\theta^*$ $\hat{\theta^s}$

ale dlaczego miałbym używać estymatora każdej próbki, jeśli już znam prawdziwe parametry ? $\theta^*$

2 . Jaka jest tutaj różnica między rozkładem empirycznym a rozkładem próbkowania?
3 . Wreszcie, nie do końca rozumiem różnicę między parametrycznym i nieparametrycznym bootstrapem z tego tekstu. Obaj wywnioskowali z zestawu obserwacji , ale jaka jest dokładnie różnica? $\theta$ $D$

bootstrap frequentist

— Amelio Vazquez-Reina
źródło

14

Odpowiedź udzielona przez miurę nie jest do końca dokładna, dlatego odpowiadam na to stare pytanie dotyczące potomności:

(2). To są bardzo różne rzeczy. Empiryczny plik cdf jest oszacowaniem CDF (dystrybucji), który wygenerował dane. Właśnie dyskretny CDF przypisuje prawdopodobieństwo do każdego obserwowanego punktu danych, , dla każdego . Ten estymator jest zbieżny z prawdziwym cdf: prawie na pewno dla każdego (w rzeczywistości jednakowo). $1/n$ $\hat{F}(x) = \frac{1}{n}\sum_{i=1}^n I(X_i\leq x)$ $x$ $\hat{F}(x) \to F(x) = P(X_i\leq x)$ $x$

Rozkład próbkowania statystyki jest natomiast rozkładem statystyki, którego można się spodziewać podczas powtarzanych eksperymentów. Oznacza to, że raz przeprowadzasz eksperyment i zbierasz dane . jest funkcją twoich danych: . Załóżmy teraz, że powtórzysz eksperyment i zbierzesz dane . Ponowne obliczenie T na nowej próbce daje . Jeśli zebraliśmy 100 próbek mielibyśmy 100 szacunki . Te obserwacje tworzą rozkład próbkowania dla $T$ ${X_1,\ldots,X_n}$ $T$ $T = T(X_1,\ldots,X_n)$ ${X'_1,\ldots,X'_n}$ $T' = T({X'_1,\ldots,X'_n})$ $T$ $T$ $T$ . To prawdziwa dystrybucja. Gdy liczba eksperymentów zbliża się do nieskończoności, jej średnia zbiega się do a jej wariancja do . $E(T)$ $Var(T)$

Na ogół oczywiście nie powtórzyć eksperymenty takie jak ten, tylko my kiedykolwiek zobaczyć jedną instancję . Ustalenie, jaka jest wariancja na podstawie pojedynczej obserwacji, jest bardzo trudne, jeśli nie znasz podstawowej funkcji prawdopodobieństwa a priori. Ładującego jest sposobem na oszacowanie, że rozkład próbkowania przez sztucznie działa „nowe eksperymenty”, na której można obliczyć nowe instancje . Każda nowa próbka jest w rzeczywistości tylko próbką oryginalnych danych. To, że dostarcza ci więcej informacji niż w oryginalnych danych, jest tajemnicze i całkowicie niesamowite. $T$ $T$ $T$ $T$ $T$

(1). Masz rację - nie zrobiłbyś tego. Autor próbuje zmotywować parametryczny bootstrap, opisując go jako robienie „tego, co byś zrobił, gdybyś znał rozkład”, ale zastępując bardzo dobry estymator funkcji dystrybucji - empiryczny plik cdf.

Załóżmy na przykład, że wiesz, że twoja statystyka testowa jest zwykle rozkładana ze średnią zero, wariancja jeden. Jak oszacowałbyś rozkład próbkowania ? Cóż, skoro znasz rozkład, głupim i zbędnym sposobem oszacowania rozkładu próbkowania jest użycie R do wygenerowania około 10 000 standardowych normalnych zmiennych losowych, a następnie pobranie ich średniej próbki i wariancji, i użycie ich jako naszych oszacowań średniej i wariancja rozkładu próbkowania . $T$ $T$ $T$

Jeśli nie znamy a priori parametrów , ale wiemy, że jest on normalnie rozłożony, zamiast tego możemy wygenerować około 10 000 próbek z empirycznego cdf, obliczyć na każdym z nich, a następnie wziąć średnią próbki i wariancji z nich 10000 s, i używać ich jako naszych szacunków wartości oczekiwanej i wariancji . Ponieważ empiryczny plik cdf jest dobrym estymatorem prawdziwego pliku cdf, przykładowe parametry powinny być zbieżne z parametrami prawdziwymi. To jest parametryczny bootstrap: stawiasz model na statystyce, którą chcesz oszacować. Model jest indeksowany przez parametr, np. , który szacuje się na podstawie wielokrotnego próbkowania z pliku ecdf. $T$ $T$ $T$ $T$ $(\mu, \sigma)$

(3). Nieparametryczny bootstrap nawet nie wymaga a priori, aby wiedzieć, że jest zwykle dystrybuowany. Zamiast tego po prostu rysujesz powtarzalne próbki z pliku ecdf i obliczasz na każdym z nich. Po narysowaniu około 10 000 próbek i obliczeniu 10 000 można wykreślić histogram swoich oszacowań. Jest to wizualizacja rozkładu próbkowania $T$ $T$ $T$ $T$ . Nieparametryczny bootstrap nie powie ci, że rozkład próbkowania jest normalny, gamma itp., Ale pozwala oszacować rozkład próbkowania (zwykle) tak dokładnie, jak to konieczne. Robi mniej założeń i dostarcza mniej informacji niż parametryczny bootstrap. Jest mniej precyzyjny, gdy parametryczne założenie jest prawdziwe, ale dokładniejszy, gdy jest fałszywy. To, którego użyjesz w każdej napotkanej sytuacji, zależy całkowicie od kontekstu. Wprawdzie więcej osób zna nieparametryczny bootstrap, ale często słabe założenie parametryczne czyni całkowicie trudnym do oszacowania model, co jest piękne.

— guest47
źródło

1

Nie jestem pewien co do twojego opisu parametrycznego bootstrapu, „co zamiast tego możemy zrobić, to wygenerować około 10 000 próbek z empirycznego pliku cdf”. Rozumiem parametryczny bootstrap, że próbujesz z modelu, który pasuje do danych. Tak opisuje oryginalny cytat z książki Murphy'ego. Mógłbym źle odczytać, ale próbkowanie z empirycznego CDF danych byłoby bezpośrednim próbkowaniem punktów danych, co byłoby standardowym bootstrapem, nie?

— user20160

@ user20160 źle interpretujesz odpowiedź „Zamiast”: opisuje on nieparametryczny pasek startowy, a nie parametryczny.

— daknowles

4

Naprawdę doceniam wysiłek wkładany przez guest47, ale nie do końca zgadzam się z jego odpowiedzią, w niektórych drobnych aspektach. Nie stawiałbym bezpośrednio moich nieporozumień, ale raczej odzwierciedlam je w tej odpowiedzi.

W wielu przypadkach niepotrzebne jest obliczanie gdy znamy już prawdziwy parametr bazowy . Jednak nadal jest przydatny, gdy chcemy spojrzeć na dokładność i precyzję w szacowaniu . Poza tym pierwszy akapit w cytowanym fragmencie ułatwi ci zrozumienie pojęcia „parametrycznego bootstrapu”, o którym powiem wkrótce. $\hat\theta s$ $\theta*$ $\hat\theta s$ $\theta*$
Guest47 daje dobrą odpowiedź. Nie trzeba więcej opracowywać.
W ładowaniu parametrycznym masz obserwowane dane D. Opracowujesz model parametryczny, który pasuje do danych, i używasz estymatorów (które są funkcją danych D) dla prawdziwych parametrów . Następnie generujesz tysiące zestawów danych z modelu parametrycznego za pomocą i szacujesz dla tych modeli. W nieparametrycznym ładowaniu początkowym używasz D, próbka (tysiące razy) dokładnie z D, zamiast z wygenerowanych danych. $\hat\theta$ $\theta*$ $\hat\theta$ $\hat\theta s$

— QINGYUAN FENG
źródło

2

Nie jestem ekspertem, ale za co warto:

Ponieważ jesteś zainteresowany rozkładem próbkowania, jak wspomniano w pierwszym zdaniu cytatu.
Rozkład empiryczny to rozkład widoczny w skończonej liczbie próbek. Rozkład próbkowania jest tym, co zobaczyłbyś, gdybyś wziął nieskończoną liczbę próbek.

Nie mogę odpowiedzieć 3. Zawsze rozumiałem, co jest tu opisane jako nieparametryczny bootstrap jako „boot”.

Jeśli jeszcze nie w pełni zrozumiałeś pojęcie dystrybucji próbkowania, jest tu naprawdę fajny wątek , który zawiera bardzo ilustracyjny kod R.

— miura
źródło

5

Różnica między parametrycznym i nieparametrycznym ładowaniem początkowym polega na tym, że ten pierwszy generuje próbki na podstawie (zakładanego) rozkładu danych, używając oszacowanych wartości parametrów, podczas gdy drugi generuje próbki na podstawie próbkowania z zastąpieniem danych obserwowanych - nie zakłada się modelu parametrycznego .

— jbowman

@jbowman - „nie-parametryczne” bootstrap nie mają podstawowej modelu - wystarczy, że jest to inny model tej stosowanej motywować oszacowanie parametru.

— probabilityislogic

@miura Proszę nie niszczyć swojej odpowiedzi. Jeśli chcesz, aby pytający wybrał inną odpowiedź, skomentuj pod pytaniem. Jeśli chcesz usunąć swoją odpowiedź, oflaguj ją i poproś o nią.

— Glen_b