Krótkie odpowiedzi:
1. Upraszcza to. (Szczerze mówiąc, nie dostałem pytania). 2. Nie, nigdy nie można tego zignorować, ponieważ brak iid ma bezpośrednie konsekwencje dla wariancji tego, co szacujesz.
Średnia odpowiedź: głównym problemem związanym z bootstrap jest: „Czy proponowana procedura odtwarza funkcje danych?” . Naruszenie założenia iid to wielka sprawa: twoje dane są zależne, masz (najprawdopodobniej) mniej informacji w swoich danych niż w próbce iid o tym samym rozmiarze, a jeśli uruchomisz naiwny bootstrap (ponownie próbkuj indywidualną obserwacje), standardowe błędy, które z niego wynikają, będą zbyt małe. Proponowana procedura pozwala obejść problem braku niezależności, wychwytując (lub przynajmniej próbując uchwycić) zależność w strukturze i parametrach modelu. Jeśli się powiedzie, każda próbka ładowania początkowego odtworzy funkcje danych, w razie potrzeby.
Długa odpowiedź:Istnieje wiele warstw założeń dotyczących bootstrapu, i nawet w najprostszym możliwym przypadku (dane iid, oszacowanie średniej), musisz przyjąć co najmniej trzy założenia: (1) statystyka będąca przedmiotem zainteresowania jest płynną funkcją danych (prawda w przypadku średniej, nie tak prawdziwa nawet w przypadku percentyli, całkowicie bez powiedzmy najbliższych sąsiadów estymatorów dopasowujących); (2) rozkład, z którego ładujesz się, jest „zbliżony” do rozkładu populacji (działa OK w przypadku danych id; może nie działać OK w przypadku danych zależnych, gdzie zasadniczo masz tylko jedną trajektorię = jedna obserwacja w przypadek szeregów czasowych i trzeba powołać się na dodatkowe założenia, takie jak stacjonarność i mieszanie, aby streścić tę pojedynczą obserwację w quasi-populacji); (3) próbkowanie bootstrapu w Monte Carlo jest wystarczająco dobrym przybliżeniem do pełnego bootstrapu ze wszystkimi możliwymi podpróbkami (niedokładność użycia Monte Carlo w porównaniu do pełnego bootstrapu jest znacznie mniejsza niż niepewność, którą próbujesz uchwycić). W przypadku parametrycznego ładowania początkowego przyjmujesz również założenie, że (4) Twój model doskonale wyjaśnia wszystkie funkcje danych.
Jako ostrzeżenie o tym, co może pójść nie tak z (4), pomyśl o regresji z błędami heteroskedastycznymi: powiedzmy , Var . Jeśli pasujesz do modelu OLS i ponownie próbkujesz resztki tak, jakby były tam iid, otrzymasz błędną odpowiedź (jakiś rodzaj gdzie to średnia , zamiast odpowiedniegoy=xβ+ϵ[ϵ]=exp[xγ]σ¯2(X′X)−1σ¯21/n∑iexp[xiγ](X′X)−1∑exp[xiγ]xix′i(X′X)−1). Więc jeśli chcesz mieć w pełni parametryczne rozwiązanie ładowania początkowego, musisz dopasować model do heteroskedastyczności wraz z modelem średniej. A jeśli podejrzewasz korelację szeregową lub inną, musiałbyś również do tego dopasować model. (Zobacz, nieparametryczny smak dystrybucji początkowej nieparametrycznie zniknął, ponieważ zastąpiłeś głos danych syntetycznym głosem twojego modelu).
Opisana metoda działa w oparciu o założenie iid, tworząc zupełnie nową próbkę. Największym problemem związanym z ładowaniem danych zależnych jest utworzenie próbki, która miałaby wzorce zależności wystarczająco zbliżone do wzorców w danych oryginalnych. Z szeregami czasowymi możesz użyć blokowych bootstrapów; z danymi klastrowymi ładujesz całe klastry; z regresją heteroskedastyczną musisz to zrobić przy użyciu dzikich bootstrapów (co jest lepszym pomysłem niż bootstrap reszt, nawet jeśli dopasowałeś do niego heteroskedastyczny model). W bloku ładowania początkowego musisz odgadnąć (lub innymi słowy, mieć dobre powody, by sądzić), że odległe części szeregów czasowych są w przybliżeniu niezależne, tak że cała struktura korelacji jest przechwytywana przez sąsiednie 5 lub 10 obserwacje, które tworzą blok. Zamiast więc przeprowadzania ponownych próbkowania obserwacji jeden po drugim, co całkowicie ignoruje strukturę korelacji szeregów czasowych, ponownie próbkuje się je w blokach, mając nadzieję, że przestrzega to struktury korelacji. Parametryczny bootstrap, o którym mówiłeś, mówi: „Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego po prostu nie wybijam dla ciebie całej uformowanej Barbie? Zastanawiałem się, jaki to rodzaj z Barbie, które lubisz i obiecuję, że zrobię ci też taką, którą zechcesz. Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego zamiast tego nie wybijam dla ciebie całej uformowanej Barbie? Zrozumiałem, jakiego rodzaju Barbie ci się podoba i obiecuję, że zrobię ci też taką, którą zechcesz ”. Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego zamiast tego nie wybijam dla ciebie całej uformowanej Barbie? Zrozumiałem, jakiego rodzaju Barbie ci się podoba i obiecuję, że zrobię ci też taką, którą zechcesz ”.
W przypadku parametrycznego bootstrapu, który opisałeś, musisz być cholernie pewien, że dopasowanie modelu HMM jest prawie idealne, w przeciwnym razie twój parametryczny bootstrap może prowadzić do nieprawidłowych wyników (Barbie, które nie mogą poruszać rękami). Pomyśl o powyższym przykładzie regresji heteroskedastycznej; lub pomyśl o dopasowaniu modelu AR (1) do danych AR (5): cokolwiek zrobisz z parametrycznie symulowanymi danymi, nie będą miały struktury, jaką miały pierwotne dane.
Edytuj : kiedy Sadeghd wyjaśnił swoje pytanie, ja również mogę na to odpowiedzieć. Istnieje ogromna różnorodność procedur ładowania początkowego, z których każda dotyczy konkretnego dziwactwa w zakresie statystyki, wielkości próby, zależności lub jakiegokolwiek innego problemu z ładowaniem początkowym. Nie ma na przykład jednego sposobu rozwiązania problemu zależności. (Pracowałem z bootstrapami ankiet, istnieje około 8 różnych procedur, chociaż niektóre mają raczej charakter metodologiczny niż praktyczny; a niektóre są wyraźnie gorsze, ponieważ mają zastosowanie tylko w szczególnych, trudnych do uogólnienia przypadkach.) ogólna dyskusja na temat problemów, które możesz napotkać przy ładowaniu, patrz Canty, Davison, Hinkley i Ventura (2006). Diagnostyka i środki zaradcze dotyczące ładowania początkowego. The Canadian Journal of Statistics, 34 (1), 5-27 .