Wyobraź sobie, że przeprowadziłeś badanie dotyczące osiągnięć edukacyjnych dzieci. Pobrano losową próbkę szkół z jakiegoś obszaru i z każdej szkoły do badania włączono jedną klasę. Przeprowadziłeś analizę, a teraz chcesz użyć bootstrap, aby uzyskać przedziały ufności dla swoich szacunków. Jak to zrobić?
Po pierwsze, zauważ, że twoje dane są hierarchiczne, mają kilka poziomów: szkoły, klasy w szkołach i uczniów w klasach. Ponieważ na szkołę przypada tylko jedna klasa, w danych nie ma drugiego poziomu. Możemy założyć, że istnieją pewne podobieństwa w obrębie szkół i różnice między szkołami. Jeśli istnieją podobieństwa w szkołach, to jeśli losowo wybierzesz uczniów, nie biorąc pod uwagę ich przynależności do szkoły, możesz zniszczyć hierarchiczną strukturę swoich danych.
Ogólnie istnieje kilka opcji:
- przykładowi studenci z wymianą,
- przykładowe całe szkoły z wymianą,
- najpierw pobierają próbki szkół z wymianą, a następnie próbują uczniów (a) z wymianą lub (b) bez wymiany.
Wydaje się, że pierwsze podejście jest najgorsze. Przypomnij sobie, że próbkowanie bootstrap powinno w jakiś sposób naśladować proces próbkowania w twoim badaniu, a ty pobierałeś próbki ze szkół, a nie z poszczególnych uczniów. Wybór między (2) i (3) jest bardziej skomplikowany, ale mam nadzieję, że można znaleźć prace badawcze dotyczące tego tematu (np. Rena i in. 2010, Field and Welsh, 2007). Zasadniczo preferowane są opcje (2) lub (3b), ponieważ wydaje się, że włączenie zbyt wielu poziomów próbkowania z wymianą prowadzi do stronniczych wyników. Więcej informacji na ten temat można znaleźć także w książkach Efrona i Tibshirani (1994) oraz Davisona i Hinkleya (1997). Zauważ, że mamy podobny problem z ładowaniem danych szeregów czasowychiw tym przypadku raczej próbujemy całych bloków szeregów (np. cały sezon, jeśli przyjmiemy sezonowość), a nie indywidualnych obserwacji, ponieważ w przeciwnym razie struktura czasu zostałaby zniszczona. W praktyce nie ma jednego uniwersalnego rozwiązania, ale przy skomplikowanych strukturach danych powinieneś wybrać taki schemat próbkowania, który najlepiej pasuje do twoich danych i twojego problemu, i jeśli to możliwe, użyj badania symulacyjnego, aby porównać różne rozwiązania.
Davison, AC i Hinkley, DV (1997). Metody ładowania początkowego i ich zastosowanie. Cambridge.
Efron, B. i Tibshirani, RJ (1994). Wprowadzenie do Bootstrap . CRC Press.
Ren, S., Lai, H., Tong, W., Aminzadeh, M., Hou, X., i Lai, S. (2010). Nieparametryczne ładowanie danych hierarchicznych. Journal of Applied Statistics, 37 (9), 1487-1498.
Field, CA i Welsh, AH (2007). Ładowanie danych klastrowych. Journal of Royal Statistics Society: Series B (Statistics Methodology), 69 (3), 369-390.