Uzyskiwanie i interpretacja przedziałów ufności bootstrapped na podstawie danych hierarchicznych

Interesuje mnie uzyskanie przedziału ufności ładowania początkowego dla ilości X, gdy ta ilość jest mierzona 10 razy u każdej z 10 osób.

Jednym podejściem jest uzyskanie średniej na osobę, a następnie ładowanie środków (np. Ponowne próbkowanie środków z wymianą).

Innym podejściem jest wykonanie następujących czynności przy każdej iteracji procedury ładowania początkowego: w obrębie każdej osoby należy ponownie próbkować 10 obserwacji tej osoby z zastąpieniem, a następnie obliczyć nową średnią dla tej osoby i ostatecznie obliczyć nową średnią grupy. W tym podejściu każda osoba zaobserwowana w oryginalnym zestawie danych zawsze przyczynia się do średniej grupy na każdej iteracji procedury ładowania początkowego.

Wreszcie trzecie podejście polega na połączeniu powyższych dwóch podejść: ponowne próbkowanie jednostek, a następnie ponowne próbkowanie w obrębie tych osób. Podejście to różni się od poprzedniego podejściem, ponieważ pozwala tej samej osobie na wniesienie wielokrotności do średniej grupy przy każdej iteracji, chociaż ponieważ każdy wkład jest generowany za pomocą niezależnej procedury ponownego próbkowania, wkładów tych można się nieco różnić od siebie.

W praktyce uważam, że te podejścia dają różne szacunki dla przedziału ufności (np. Z jednym zestawem danych, stwierdzam, że trzecie podejście daje znacznie większe przedziały ufności niż pierwsze dwa podejścia), więc jestem ciekawy, jakie może być każde interpretowane jako reprezentujące.

confidence-interval bootstrap

— Mike Lawrence
źródło

Odpowiedzi:

Twoje pierwsze podejście dotyczy między S CI. Jeśli chcesz zmierzyć w obrębie S, to jest to niewłaściwe podejście.

Drugie podejście wygenerowałoby wewnątrz CI CI, które dotyczyłoby tylko tych 10 osób.

Ostatnie podejście jest poprawne dla wewnątrz CI CI. Wszelkie wzrosty CI są spowodowane tym, że CI jest bardziej reprezentatywny dla CI, który można zastosować do populacji zamiast tych 10 S.

— Jan
źródło

Według Davisona i Hinckleya („Metody Bootstrap i ich zastosowanie”, 1997, sekcja 3.8), trzeci algorytm jest konserwatywny. Opowiadają się za czwartym podejściem: po prostu próbkując ponownie tematy.

— Andrew Robinson
źródło

Interesujące, będę musiał sprawdzić to odniesienie. Czy na pewno masz na myśli podejście „czwarte”? Pierwsze podejście, które wymieniłem, wydaje się opisywać „po prostu ponownie próbkując tematy”.

— Mike Lawrence

Tak, tak, ale opisuje ponowne próbkowanie oznacza przedmiot. D&H opowiada się za ponownym próbkowaniem próbek i dopasowaniem oryginalnego modelu.

— Andrew Robinson,

Możesz także zobaczyć ostatnio opublikowane: Ren, Shiquan, Lai, Hong, Tong, Wenjing, Aminzadeh, Mostafa, Hou, Xuezhang i Lai, Shenghan (2010) „Nieparametryczne ładowanie danych hierarchicznych”, Journal of Applied Statistics, 37: 9, 1487-1498

— Andrew Robinson

@ Mike: ponowne próbkowanie całego clsuter jest tym, co statystycy ankiety robią w swoich bootstrapach. To rzeczywiście inna procedura, która byłaby równoważna z twoim „pierwszym” podejściem, jeśli (i) oszacujesz tylko średnią, i (ii) dane są nieważone i zrównoważone. Zobacz także citeulike.org/user/ctacmo/article/1334050 , citeulike.org/user/ctacmo/article/1475866 , citeulike.org/user/ctacmo/article/582039 .

— StasK