Kiedy szacunek obciążenia początkowego jest prawidłowy?

31

Często twierdzi się, że ładowanie początkowe może zapewnić oszacowanie błędu systematycznego w estymatorze.

Jeśli jest szacunkiem dla niektórych statystyk, a są replikami ładowania początkowego (z ), to szacunek obciążenia początkowego szacunku wynosi co wydaje się niezwykle proste i potężne, do tego stopnia, że niepokoi. $\hat t$ $\tilde t_i$ $i\in\{1,\cdots,N\}$

{b i a s}_{t} \approx \frac{1}{N} \sum_{i} {\tilde{t}}_{i} - \hat{t}

$\begin{equation} \mathrm{bias}_t \approx \frac{1}{N}\sum_i \tilde{t}_i-\hat t \end{equation}$

Nie mogę się zastanowić, jak to możliwe, bez uprzedniego obiektywnego oszacowania statystyki. Na przykład, jeśli mój estymator po prostu zwraca stałą niezależną od obserwacji, powyższe oszacowanie błędu jest wyraźnie nieważne.

Chociaż ten przykład jest patologiczny, nie widzę, jakie są rozsądne założenia dotyczące estymatora i rozkładów, które zagwarantują, że oszacowanie ładowania początkowego jest rozsądne.

Próbowałem przeczytać oficjalne odniesienia, ale nie jestem statystykiem ani matematykiem, więc nic nie zostało wyjaśnione.

Czy ktoś może przedstawić ogólne podsumowanie, kiedy można oczekiwać, że szacunek będzie ważny? Jeśli znasz dobre referencje na ten temat, byłoby również świetnie.

Edytować:

Gładkość estymatora jest często podawana jako wymóg, aby bootstrap działał. Czy to możliwe, że wymaga się także pewnego rodzaju lokalnej odwracalności transformacji? Stała mapa wyraźnie tego nie spełnia.

bootstrap bias

— Bootstrapped
źródło

2

Estymator stały jest bezstronnym estymatorem tej stałej, więc naturalne jest, że estymator obciążenia początkowego wynosi zero.

— Xi'an

4

Opisany przez ciebie problem to problem interpretacji, a nie ważności. Szacunkowa wartość błędu początkowego dla twojego stałego estymatora nie jest nieprawidłowa, w rzeczywistości jest idealna.

Ładowanie początkowe oszacowanie błędu wynosi od estymatora i parametr gdzie jest jakiś nieznany dystrybucji oraz próbki z . Funkcję można w zasadzie obliczyć, gdybyś miał pod ręką populację. Czasami wziąć wtykowego oszacowania przy użyciu empirycznego rozkładu w miejsce . Jest to prawdopodobnie to, co opisałeś powyżej. We wszystkich przypadkach oszacowanie obciążenia początkowego szacunku to gdzie $\hat\theta = s(x)$ $\theta = t(F),$ $F$ $x$ $F$ $t(F)$ $s(x) = t(\hat F),$ $t(F)$ $\hat F$ $F$

{b i a s}_{\hat{F}} = E_{\hat{F}} [s (x^{*})] - t (\hat{F}),

$\mathrm{bias}_{\hat F} = E_{\hat F}[s(x^*)] - t(\hat F),$

x^{*}

$x^*$ to próbki bootstrap z .

x

$x$

Stała jest doskonałym wtykowe oszacowania dla tej samej stałej: $c$ Populacja jest i próbka , rozkład empirycznej, która jest zbliżona do . Gdybyś mógł ocenić , dostałbyś . Po obliczeniu oszacowania wtyczki otrzymujesz również . Bez uprzedzeń, jak można się spodziewać. $\sim F$ $\sim \hat F$ $F$ $t(F) = c$ $c$ $t(\hat F) = c$ $c$

Dobrze znanym przypadkiem, w którym występuje błąd w oszacowaniu wtyczki jest oszacowanie wariancji, stąd korekta Bessela. Poniżej to demonstruję. Szacunek błędu początkowego nie jest taki zły: $t(\hat F)$

library(plyr)

n <- 20
data <- rnorm(n, 0, 1)

variance <- sum((data - mean(data))^2)/n

boots <- raply(1000, {
  data_b <- sample(data, n, replace=T)
  sum((data_b - mean(data_b))^2)/n
})

# estimated bias
mean(boots) - variance 
#> [1] -0.06504726

# true bias:
((n-1)/n)*1 -1
#> [1] -0.05

Zamiast tego możemy przyjąć, że jest średnią populacji, a , sytuacja, w której w większości przypadków powinno być wyraźne odchylenie: $t(F)$ $s(x) = c$

library(plyr)

mu <- 3
a_constant <- 1

n <- 20
data <- rnorm(n, mu, 1)

boots <- raply(1000, {
  # not necessary as we will ignore the data, but let's do it on principle
  data_b <- sample(data, n, replace=T)

  a_constant
})

# estimated bias
mean(boots) - mean(data) 
#> [1] -1.964877

# true bias is clearly -2

Ponownie oszacowanie bootstrap nie jest takie złe.

— einar
źródło

Dodałem tę odpowiedź, ponieważ inne odpowiedzi wydają się przyjmować za pewnik, że jest to problem polegający na tym, że oszacowanie obciążenia początkowego wynosi 0, gdy jest stałą. Nie wierzę, że tak jest.

t

$t$

— einar

Podoba mi się twoja odpowiedź i twoje demo, ale nie sądzę, by twoja definicja była poprawna „Szacunkowa wartość błędu początkowego jest szacunkiem błędu między funkcją próbki a tą samą funkcją ocenianą w populacji”. Podczas gdy to, co piszesz, jest dobrze zdefiniowane, gdyby to była definicja, nie byłoby sposobu, aby użyć bootstrap do oszacowania stronniczości np. Wariancji próbki jako estymatora wariancji populacji.

— DavidR

@DavidR Masz rację, dziękuję za komentowanie. Zaktualizowałem odpowiedź.

— einar

Bardzo lubię ten opis! Moje jedyne pytanie dotyczy „oszacowania obciążenia początkowego”. Myślę, że to, co napisałeś, to faktyczne odchylenie estymatora (ale raczej dla rozkładu empirycznego niż rzeczywistego), ponieważ bierzesz pod uwagę próbki bootstrap. Myślę, że estymator ładowania początkowego byłby skończoną sumą w porównaniu z próbkami ładowania początkowego B?

— DavidR

1

@DavidR Cieszę się, że tak! To, co zgłaszam, jest technicznie oszacowaniem obciążenia początkowego (ponieważ używasz zamiast i oczekiwania bootstrap dla zamiast jego oczekiwań względem ). Ale w większości praktycznych zastosowań jest trudny i przybliżamy to przez Monte Carlo, jak mówisz.

t (\hat{F})

$t(\hat F)$

θ

$\theta$

s ()

$s()$

F

$F$

E_{\hat{F}} [s (x^{*})]

$E_{\hat F}[s(x^*)]$

— einar

3

Popełniasz jeden błąd i może to jest mylące. Mówisz:

jeśli mój estymator po prostu zwraca stałą niezależną od obserwacji, powyższe oszacowanie błędu jest wyraźnie nieważne

Bootstrap nie polega na tym, na ile twoja metoda jest stronnicza, ale na ile twoje wyniki uzyskane przez jakąś funkcję, biorąc pod uwagę twoje dane są tendencyjne.

Jeśli wybierzesz odpowiednią metodę statystyczną do analizy danych, a wszystkie założenia tej metody zostaną spełnione, a matematyka została poprawnie wykonana, wówczas metoda statystyczna powinna zapewnić „najlepszą” możliwą ocenę, którą można uzyskać na podstawie danych .

Idea bootstrap polega na próbkowaniu z danych w taki sam sposób, w jaki próbkowałeś swoje przypadki z populacji - więc jest to rodzaj replikacji twojego próbkowania. Pozwala to uzyskać przybliżony rozkład (przy użyciu słów Efrons) swojej wartości, a tym samym oszacować błąd szacunku.

Argumentuję jednak, że twój przykład wprowadza w błąd i dlatego nie jest to najlepszy przykład do omawiania bootstrapu. Ponieważ po obu stronach były nieporozumienia, pozwolę sobie zaktualizować odpowiedź i napisać ją w bardziej formalny sposób, aby zilustrować mój punkt widzenia.

Odchylenie dla będącego oszacowaniem prawdziwej wartości jest zdefiniowane jako: $\hat{\theta}$ $\theta$

bias ({\hat{θ}}_{n}) = E_{θ} ({\hat{θ}}_{n}) - θ

$\text{bias}(\hat{\theta}_n) = \mathbb{E}_\theta(\hat{\theta}_n) - \theta$

gdzie:

{\hat{θ}}_{n} = g (x_{1}, x_{2}, . . ., x_{n})

$\hat{\theta}_n = g(x_1,x_2,...,x_n)$

gdzie jest estymatorem. $g(\cdot)$

Jak zauważa Larry Wasserman w swojej książce „All the Statistics” :

Rozsądnym wymogiem dla estymatora jest to, że powinien on być zbieżny z prawdziwą wartością parametru, gdy zbieramy coraz więcej danych. To wymaganie jest określone ilościowo za pomocą następującej definicji:
6.7 Definicja. Estymator punktów parametru jest zgodny, jeśli . $\hat{\theta}_n$ $\theta$ $\hat{\theta}_n \overset{P}{\rightarrow} \theta$

Stały estymator, będący stałą funkcją : , nie spełnia tego wymogu, ponieważ jest niezależny od danych, a rosnąca liczba obserwacji nie spowodowałaby, że zbliżyłaby się do prawdziwej wartości (chyba że przez szczęście lub posiadanie bardzo solidne założenia a priori dotyczące , to że ). $x$ $g(X) = \lambda$ $\theta$ $\lambda$ $\lambda = \theta$

Stały estymator nie spełnia podstawowego wymogu bycia rozsądnym estymatorem, a zatem niemożliwe jest oszacowanie jego błędu, ponieważ nie zbliża się nawet przy . Nie można tego zrobić za pomocą bootstrapu ani żadnej innej metody, więc nie ma problemu z bootstrapem. $\hat{\theta}_n$ $\theta$ $n \rightarrow \infty$

— Tim
źródło

5

Obawiam się, że ta odpowiedź wydaje się siać zamieszanie. Stały estymator jest estymatorem według większości definicji - aw niektórych przypadkach jest nawet dopuszczalny. Twoje pytanie łączy pomyłkę próbkowania z uprzedzeniem szacunkowym, co z pewnością dezorientuje prawie wszystkich czytelników. Twój akapit na temat „najlepszego możliwego oszacowania” jest fajny, ale nasuwa się zasadnicze pytanie, jak mierzyć „najlepszy”. Odchylenie jest tylko jednym z tych elementów (jeśli w ogóle).

— whuber

Chociaż nie mam wystarczających kwalifikacji, aby odpowiedzieć na OP, obawiam się, że Whuber ma rację. Ponadto, czy można nazywać populację estymatorem? W odniesieniu do ostatniego zdania, myślę, że boostrap zapewnia oszacowanie odchylenia analizowanego estymatora, a nie metody próbkowania.

— mugen

Rozumiem, że ładowanie początkowe nie jest w stanie wykryć błędów systematycznych, ale przynajmniej w pewnym limicie ma wykrywać błąd statystyczny. Przypuszczam, że twoja uwaga dotyczy subtelności w rozróżnianiu między nimi, ale dla mnie jest to nadal niejasne. Wygląda na to, że mówisz o uprzedzeniu, o którym nigdy nie słyszałem - nie o estymatorze, ale o danych. Jaka jest formalna definicja tego pojęcia uprzedzeń?

— Bootstrapped

3

Zdecydowanie nieporozumienie: Tim, nie używasz „estymatora” lub „stronniczości” w sposób konwencjonalny dla kontekstu ustalonego w tym pytaniu, podczas gdy Bootstrapped jest. Co więcej, nie masz racji, że bootstrap może wykrywać błędy systematyczne i niepoprawnie utożsamiasz te z „stronniczością” w kontekście szacowania. W odpowiedzi pozostają także różne błędy. Na przykład błąd systematyczny estymatora (równego, powiedzmy, ) parametru jest z definicji . Proszę zapoznać się z referencjami .

λ

$\lambda$

θ

$\theta$

λ - θ

$\lambda-\theta$

— whuber

8

To interesujące, że poruszasz kwestię spójności w swojej edycji. Może ci się wydawać zabawne - a może nawet trochę prowokujące do myślenia - rozważenie estymatora który jest równy pod warunkiem, że a poza tym jest estymatorem maksymalnego prawdopodobieństwa. Chociaż jest to spójne, cierpi z powodu problemu wskazanego przez PO. Ponieważ ten wątek dotyczy scharakteryzowania warunków, które zapewniłyby, że „oszacowanie ładowania początkowego jest rozsądne”, z tego przykładu wydaje się, że spójność nie występuje w tych warunkach, ani nawet nie jest odpowiednia koncepcja.

\hat{θ}

$\hat\theta$

0

$0$

n < 10^{100}

$n\lt 10^{100}$

— whuber

3

Myślę, że twoja formuła jest zła. Ostatni powinien mieć gwiazdkę zamiast czapki: $t$

{b i a s}_{t} \approx \frac{1}{N} \sum_{i} {\tilde{t}}_{i} - t^{*}

$\begin{equation} \mathrm{bias}_t \approx \frac{1}{N}\sum_i \tilde{t}_i- t^* \end{equation}$

Chcesz użyć rzeczywistej statystyki obliczonej na rozkładzie empirycznym (jest to często łatwe, ponieważ oryginalna próbka jest zbiorem skończonym), a nie oszacowania. W niektórych przypadkach mogą być one takie same (na przykład średnia empiryczna jest taka sama jak średnia z próby), ale ogólnie nie będą. Podałeś jeden przypadek, w którym są one różne, ale mniej patologicznym przykładem jest zwykle obiektywny estymator wariancji, który nie jest taki sam jak wariancja populacyjna po zastosowaniu do skończonego rozkładu.

Jeśli statystyka nie ma sensu w rozkładzie empirycznym (na przykład, jeśli zakłada rozkład ciągły), nie powinieneś używać waniliowego ładowania początkowego. Możesz zastąpić rozkład empiryczny oszacowaniem gęstości jądra (gładki bootstrap), lub jeśli wiesz, że oryginalny rozkład należy do określonej rodziny, możesz zastąpić rozkład empiryczny maksymalnym prawdopodobnym oszacowaniem z tej rodziny (parametryczny bootstrap). $t$

TL / DR: Metoda ładowania początkowego nie jest magiczna. Aby uzyskać obiektywne oszacowanie błędu, musisz być w stanie obliczyć interesujący parametr dokładnie na skończonym rozkładzie.

— Evan Wright
źródło

1

Nie jestem pewien co do znaczenia twojej notacji. Zgodnie z notatkami wykładowymi Pete Hall (UC Davis), te notatki wykładowe Cosmy Shalizi (CMU) oraz ta strona książki Efrona i Tibshirani wydają się wskazywać, że to, co mam, nie jest złe, po prostu nie w pełni ogólne (tj. Korzystam z estymatora wtyczki tutaj, ale nie jest to konieczne).

— Bootstrapped

Efron i Tibshirani podają tę samą formułę, co ja, z inną notacją. Pete Hall zdaje się przy założeniu, że : Na stronie 11, że zastępuje (co jest to, co nazywa się z bez komentarza dyskusji Cosma Shalizi dnia czopami. w części 2.2 wydaje się także domyślnie zakładać, że jest rzeczywistą wartością na rozkładzie empirycznym ( ). Myślę, że całe wasze zamieszanie jest spowodowane niechlujnością tych notatek z wykładu

t^{*} = \hat{t}

$t^* = \hat t$

θ (F_{1})

$\theta(F_1)$

t^{*}

$t^*$

\hat{θ}

$\hat \theta$

\hat{t}

$\hat t$

t

$t$

t^{*}

$t^*$

— Evan Wright

W porządku, ale nie sądzę, że notacja rozwiązuje problem lub rozwiązuje pytanie. W szczególności wiem, że stały estymator musi się zepsuć (bootstrap nie jest magiczny). Przykład wariancji działa, nawet jeśli przyjmiemy założenie, że (tzn. Działa oszacowanie obciążenia początkowego). Co z innymi estymatorami dla innych statystyk? Jakie są wystarczające warunki do działania szacunku obciążenia początkowego? W jaki sposób stały estymator narusza te warunki?

t^{*} = \hat{t}

$t^*=\hat t$

— Bootstrapped

1

O to mi chodzi: ta stała wersja daje właściwą odpowiedź nawet dla stałego estymatora. Załóżmy, że próbujesz oszacować średnią populacji, ale wybierasz estymator, który zawsze zgaduje 0. Wtedy będzie rzeczywistą średnią próbki, a nie 0. Więc jako szacunek błędu systematycznego idzie do minus średniej próbki, co jest rozsądne i ma wartość oczekiwaną równą prawdziwemu odchyleniu.

t^{*}

$t^*$

N \to \infty

$N \to \infty$

— Evan Wright,

Wydaje się, że nie do końca rozumiem definicję . Definicja w Efron i Tibshirani (na stronie, do której odsyłam powyżej) wydaje się sugerować, że jest to oszacowanie wtyczki oparte na rozkładzie empirycznym, ale operacyjne znaczenie tego umknęło mi. Powiedzmy, że mam pewne dane o dużych wymiarach, które chcę dopasować do jakiejś funkcji nieliniowej, i chcę wiedzieć, czy moje oszacowanie parametrów funkcji nieliniowej jest tendencyjne, czy nie. Co to jest w tym przypadku? Definicja wydaje mi się jasna, ale jest mgliste.

t^{*}

$t^*$

t^{*}

$t^*$

{\tilde{t}}_{i}

$\tilde t_i$

t^{*}

$t^*$

— Bootstrapped

0

Uważam, że warto pomyśleć o procedurach ładowania początkowego pod kątem funkcjonałów dystrybucji, na których działają - podałem przykład w tej odpowiedzi na inne pytanie dotyczące ładowania początkowego.

Szacunek, który podałeś, jest tym, czym jest - szacunkiem. Nikt nie mówi, że nie występują problemy, które mogą wynikać z szacunków statystycznych. To da ci niezerowe oszacowanie odchylenia dla średniej próbki, na przykład, o której wszyscy wiemy, że na początku jest obiektywna. Jednym z problemów z tym estymatorem błędu jest to, że cierpi on na zmienność próbkowania, gdy bootstrap jest wdrażany jako Monte Carlo, a nie na pełne wyliczenie wszystkich możliwych podprób (a zresztą nikt nie jest to teoretyczny bootstrap w praktyce).

W związku z tym implementacja bootstrap w Monte Carlo jest nie do naprawienia i musisz użyć innego schematu bootstrap. Davison i in. glin. (1986) zademonstrowali, jak stworzyć inny schemat ładowania początkowego, który ogranicza losowe losowanie w celu uzyskania zrównoważonych próbek: jeśli tworzysz repliki ładowania początkowego , to każdy z oryginalnych elementów musi być użyty dokładnie razy dla równowagi pierwszego rzędu. (Bilans drugiego rzędu, który działa lepiej dla drugich momentów estymatorów, jest dalej omawiany przez Graham i in. (1990) .) $B$ $B$

— StasK
źródło

7

Myślę, że oryginalne pytanie Bootstrapped jest ortogonalne w kwestii zmienności Monte Carlo. Nawet jeśli weźmiemy liczbę replik ładowania początkowego do nieskończoności, formuła w pytaniu da zerowe oszacowanie dla odchylenia stałego estymatora i da niezerowe oszacowanie dla odchylenia zwykle bezstronnego oszacowania wariancji.

— Evan Wright,