Obliczanie przedziałów ufności za pomocą paska startowego na podstawie obserwacji zależnych

Pasek startowy, w standardowej formie, może być używany do obliczania przedziałów ufności szacunkowych statystyk, pod warunkiem, że obserwacje są identyczne. I. Visser i in. w „ Przedziałach ufności dla parametrów ukrytego modelu Markowa ” wykorzystano parametryczny bootstrap do obliczenia CI dla parametrów HMM. Jednak, gdy dopasowujemy HMM do sekwencji obserwacji, już założyliśmy, że obserwacje są zależne (w przeciwieństwie do modeli mieszanych).

Mam dwa pytania:

Co założenie idid robi z bootstrap?
Czy możemy zignorować wymaganie iid w parametrycznym bootstrapie?

Visser i in. metoda jest następująco:

Załóżmy, że mamy sekwencję obserwacji wynikającą z próbkowania HMM z rzeczywistym, ale nieznanym zestawem parametrów . $Y=o_1,o_2,...,o_n$ $\theta=\theta_1,\theta_2,...,\theta_l$
Parametry można oszacować za pomocą algorytmu EM: $\hat{\theta}=\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_l$
Użyj szacowanego HMM, aby wygenerować próbkę ładowania początkowego o rozmiarze : $n$ $Y^*=o^*_1,o^*_2,...,o^*_n$
Oszacuj parametry HMM według przykładu ładowania początkowego: $\hat{\theta}^*=\hat{\theta}^*_1,\hat{\theta}^*_2,...,\hat{\theta}^*_l$
Powtórz kroki 3 i 4 dla czasów (np. = 1000), co daje oszacowania ładowania początkowego: $B$ $B$ $B$ $\hat{\theta}^*(1),\hat{\theta}^*(2),...,\hat{\theta}^*(B)$
Obliczyć CI każdego oszacowanego parametru używając rozkładu w oszacowaniach bootstrap. $\hat{\theta}_i$ $\hat{\theta}^*_i$

Uwagi (moje ustalenia):

Metodę percentylową należy stosować do obliczania CI, aby uzyskać prawidłowe pokrycie (normalność jest złym założeniem).
Bias dystrybucji bootstrap powinien zostać poprawiony. Oznacza to, że średni rozkład powinien zostać przesunięty do $\hat{\theta}^*_i$ $\hat{\theta}_i$

confidence-interval bootstrap hidden-markov-model

— Sadeghd
źródło

Innymi słowy pierwsze pytanie: jaki jest wpływ założenia iid na bootstrap? Czy jest to założenie upraszczające, które można usunąć, stosując bardziej złożony algorytm lub formułę?

— Sadeghd,

Krótkie odpowiedzi: 1. Upraszcza to. (Szczerze mówiąc, nie dostałem pytania). 2. Nie, nigdy nie można tego zignorować, ponieważ brak iid ma bezpośrednie konsekwencje dla wariancji tego, co szacujesz.

Średnia odpowiedź: głównym problemem związanym z bootstrap jest: „Czy proponowana procedura odtwarza funkcje danych?” . Naruszenie założenia iid to wielka sprawa: twoje dane są zależne, masz (najprawdopodobniej) mniej informacji w swoich danych niż w próbce iid o tym samym rozmiarze, a jeśli uruchomisz naiwny bootstrap (ponownie próbkuj indywidualną obserwacje), standardowe błędy, które z niego wynikają, będą zbyt małe. Proponowana procedura pozwala obejść problem braku niezależności, wychwytując (lub przynajmniej próbując uchwycić) zależność w strukturze i parametrach modelu. Jeśli się powiedzie, każda próbka ładowania początkowego odtworzy funkcje danych, w razie potrzeby.

Długa odpowiedź:Istnieje wiele warstw założeń dotyczących bootstrapu, i nawet w najprostszym możliwym przypadku (dane iid, oszacowanie średniej), musisz przyjąć co najmniej trzy założenia: (1) statystyka będąca przedmiotem zainteresowania jest płynną funkcją danych (prawda w przypadku średniej, nie tak prawdziwa nawet w przypadku percentyli, całkowicie bez powiedzmy najbliższych sąsiadów estymatorów dopasowujących); (2) rozkład, z którego ładujesz się, jest „zbliżony” do rozkładu populacji (działa OK w przypadku danych id; może nie działać OK w przypadku danych zależnych, gdzie zasadniczo masz tylko jedną trajektorię = jedna obserwacja w przypadek szeregów czasowych i trzeba powołać się na dodatkowe założenia, takie jak stacjonarność i mieszanie, aby streścić tę pojedynczą obserwację w quasi-populacji); (3) próbkowanie bootstrapu w Monte Carlo jest wystarczająco dobrym przybliżeniem do pełnego bootstrapu ze wszystkimi możliwymi podpróbkami (niedokładność użycia Monte Carlo w porównaniu do pełnego bootstrapu jest znacznie mniejsza niż niepewność, którą próbujesz uchwycić). W przypadku parametrycznego ładowania początkowego przyjmujesz również założenie, że (4) Twój model doskonale wyjaśnia wszystkie funkcje danych.

Jako ostrzeżenie o tym, co może pójść nie tak z (4), pomyśl o regresji z błędami heteroskedastycznymi: powiedzmy , Var . Jeśli pasujesz do modelu OLS i ponownie próbkujesz resztki tak, jakby były tam iid, otrzymasz błędną odpowiedź (jakiś rodzaj gdzie to średnia , zamiast odpowiedniego $y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ ). Więc jeśli chcesz mieć w pełni parametryczne rozwiązanie ładowania początkowego, musisz dopasować model do heteroskedastyczności wraz z modelem średniej. A jeśli podejrzewasz korelację szeregową lub inną, musiałbyś również do tego dopasować model. (Zobacz, nieparametryczny smak dystrybucji początkowej nieparametrycznie zniknął, ponieważ zastąpiłeś głos danych syntetycznym głosem twojego modelu).

Opisana metoda działa w oparciu o założenie iid, tworząc zupełnie nową próbkę. Największym problemem związanym z ładowaniem danych zależnych jest utworzenie próbki, która miałaby wzorce zależności wystarczająco zbliżone do wzorców w danych oryginalnych. Z szeregami czasowymi możesz użyć blokowych bootstrapów; z danymi klastrowymi ładujesz całe klastry; z regresją heteroskedastyczną musisz to zrobić przy użyciu dzikich bootstrapów (co jest lepszym pomysłem niż bootstrap reszt, nawet jeśli dopasowałeś do niego heteroskedastyczny model). W bloku ładowania początkowego musisz odgadnąć (lub innymi słowy, mieć dobre powody, by sądzić), że odległe części szeregów czasowych są w przybliżeniu niezależne, tak że cała struktura korelacji jest przechwytywana przez sąsiednie 5 lub 10 obserwacje, które tworzą blok. Zamiast więc przeprowadzania ponownych próbkowania obserwacji jeden po drugim, co całkowicie ignoruje strukturę korelacji szeregów czasowych, ponownie próbkuje się je w blokach, mając nadzieję, że przestrzega to struktury korelacji. Parametryczny bootstrap, o którym mówiłeś, mówi: „Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego po prostu nie wybijam dla ciebie całej uformowanej Barbie? Zastanawiałem się, jaki to rodzaj z Barbie, które lubisz i obiecuję, że zrobię ci też taką, którą zechcesz. Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego zamiast tego nie wybijam dla ciebie całej uformowanej Barbie? Zrozumiałem, jakiego rodzaju Barbie ci się podoba i obiecuję, że zrobię ci też taką, którą zechcesz ”. Zamiast majstrować przy danych i składać nowe lalki z kawałków starych, dlaczego zamiast tego nie wybijam dla ciebie całej uformowanej Barbie? Zrozumiałem, jakiego rodzaju Barbie ci się podoba i obiecuję, że zrobię ci też taką, którą zechcesz ”.

W przypadku parametrycznego bootstrapu, który opisałeś, musisz być cholernie pewien, że dopasowanie modelu HMM jest prawie idealne, w przeciwnym razie twój parametryczny bootstrap może prowadzić do nieprawidłowych wyników (Barbie, które nie mogą poruszać rękami). Pomyśl o powyższym przykładzie regresji heteroskedastycznej; lub pomyśl o dopasowaniu modelu AR (1) do danych AR (5): cokolwiek zrobisz z parametrycznie symulowanymi danymi, nie będą miały struktury, jaką miały pierwotne dane.

Edytuj : kiedy Sadeghd wyjaśnił swoje pytanie, ja również mogę na to odpowiedzieć. Istnieje ogromna różnorodność procedur ładowania początkowego, z których każda dotyczy konkretnego dziwactwa w zakresie statystyki, wielkości próby, zależności lub jakiegokolwiek innego problemu z ładowaniem początkowym. Nie ma na przykład jednego sposobu rozwiązania problemu zależności. (Pracowałem z bootstrapami ankiet, istnieje około 8 różnych procedur, chociaż niektóre mają raczej charakter metodologiczny niż praktyczny; a niektóre są wyraźnie gorsze, ponieważ mają zastosowanie tylko w szczególnych, trudnych do uogólnienia przypadkach.) ogólna dyskusja na temat problemów, które możesz napotkać przy ładowaniu, patrz Canty, Davison, Hinkley i Ventura (2006). Diagnostyka i środki zaradcze dotyczące ładowania początkowego. The Canadian Journal of Statistics, 34 (1), 5-27 .

— StasK
źródło

Żeby dodać trochę do twojego stwierdzenia o mniejszej ilości informacji, kiedy masz zależne klastry danych (w sekcji Medium ), uważam, że jest to prawdą, gdy istnieje dodatnia korelacja wewnątrzklasowa w klastrze, ale odwrotnie jest, gdy jest ujemna korelacja wewnątrzklasowa. Oczywiście wydaje się, że w większości rzeczywistych aplikacji danych korelacje wewnątrzklasowe są dodatnie.

— Makro,

@Macro: z pewnością masz rację w obu kwestiach (że jest to technicznie możliwe i że jest praktycznie nieistotne). To samo stanie się, jeśli oszacujesz średni poziom procesu AR (1) z ujemną korelacją, ale znów nie mogę myśleć o prawdziwych procesach, które mogą mieć tę cechę. W przeciwieństwie do dodatniej autokorelacji, która jest odtwarzalna w różnych skalach czasowych, ujemna korelacja musi zniknąć, jeśli podwoisz długość okresu odniesienia. (Dane dotyczące cykli koniunkturalnych, takie jak PKB w USA, wykazują ujemne korelacje przy opóźnieniu wynoszącym około trzech lat.)

— StasK

Dziękuję za szczegółową odpowiedź. Doszedłem do wniosku, że ponowne próbkowanie parametryczne może osłabić efekt zależności. Jednak rozkład parametryczny musi być w dużym stopniu reprezentatywny dla prawdziwej populacji, a wzorce zależności muszą zostać zregenerowane podczas ponownego próbkowania.

— Sadeghd,