Minimalny rozmiar próbki na klaster w modelu efektu losowego


10

Czy istnieje uzasadnienie dla liczby obserwacji przypadających na klaster w modelu efektu losowego? Mam próbkę o wielkości 1500 z 700 klastrami zamodelowanymi jako wymienny efekt losowy. Mam opcję łączenia klastrów w celu tworzenia mniejszych, ale większych klastrów. Zastanawiam się, jak mogę wybrać minimalną wielkość próbki na klaster, aby uzyskać znaczące wyniki w przewidywaniu losowego efektu dla każdego klastra? Czy istnieje dobry artykuł, który to wyjaśnia?

Odpowiedzi:


13

TL; DR : Minimalna wielkość próby na klaster w modelu z efektami mieszanymi wynosi 1, pod warunkiem, że liczba klastrów jest wystarczająca, a odsetek klastrów singletonów nie jest „zbyt wysoki”

Dłuższa wersja:

Ogólnie liczba skupień jest ważniejsza niż liczba obserwacji na skupisko. Z 700 wyraźnie nie ma problemu.

Małe rozmiary klastrów są dość powszechne, szczególnie w badaniach społecznych, które opierają się na warstwowych planach próbkowania, i istnieje szereg badań, które badały wielkość próby na poziomie klastrów.

Podczas gdy zwiększenie wielkości klastra zwiększa moc statystyczną do oszacowania efektów losowych (Austin i Leckie, 2018), małe rozmiary klastrów nie prowadzą do poważnych stronniczości (Bell i in., 2008; Clarke, 2008; Clarke i Wheaton, 2007; Maas & Hox , 2005). Zatem minimalna wielkość próbki na klaster wynosi 1.

W szczególności Bell i wsp. (2008) przeprowadzili badanie symulacyjne Monte Carlo z proporcjami skupień singletonów (skupienia zawierające tylko jedną obserwację) w zakresie od 0% do 70% i stwierdzili, że pod warunkiem, że liczba skupień jest duża (~ 500) małe rozmiary klastrów prawie nie miały wpływu na stronniczość i kontrolę błędów typu 1.

Zgłoszono także bardzo niewiele problemów ze zbieżnością modeli w dowolnym ze scenariuszy modelowania.

W przypadku konkretnego scenariusza w PO sugerowałbym uruchomienie modelu z 700 klastrami w pierwszej kolejności. O ile nie byłoby z tym wyraźnego problemu, nie chciałbym łączyć klastrów. W R przeprowadziłem prostą symulację:

Tutaj tworzymy klastrowany zestaw danych z resztkową wariancją 1, pojedynczym stałym efektem również z 1, 700 klastrami, z których 690 to singletony, a 10 ma tylko 2 obserwacje. Przeprowadzamy symulację 1000 razy i obserwujemy histogramy szacowanych ustalonych i resztkowych efektów losowych.

> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) { 
   dtB$x <- rnorm(nrow(dtB), 0, 1)
   dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1

   fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
   fixef.v[i] <- fixef(fm0B)[[2]]
   ranef.v[i] <- attr(VarCorr(fm0B), "sc")
 }
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

Jak widać, ustalone efekty są bardzo dobrze oszacowane, podczas gdy pozostałe efekty losowe wydają się być nieco tendencyjne w dół, ale nie drastycznie:

> summary(fixef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.6479  0.9439  0.9992  1.0005  1.0578  1.2544 
> summary(ranef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2796  0.7745  0.9004  0.8993  1.0212  1.4837 

PO w szczególności wspomina o oszacowaniu losowych efektów na poziomie klastra. W powyższej symulacji losowe efekty powstały po prostu jako wartość każdego Subjectidentyfikatora (pomniejszona o współczynnik 100). Oczywiście nie są one normalnie rozmieszczone, co jest założeniem liniowych modeli efektów mieszanych, jednak możemy wyodrębnić (tryby warunkowe) efekty na poziomie klastra i wykreślić je względem rzeczywistych Subjectidentyfikatorów:

> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

Histogram nieco odbiega od normalności, ale wynika to ze sposobu, w jaki symulowaliśmy dane. Nadal istnieje uzasadniony związek między szacowanymi a rzeczywistymi efektami losowymi.

Bibliografia:

Peter C. Austin i George Leckie (2018) Wpływ liczby klastrów i wielkości klastra na moc statystyczną i wskaźniki błędów typu I podczas testowania składników wariancji efektów losowych w wielopoziomowych modelach regresji liniowej i logistycznej, Journal of Statistics Computation and Simulation, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945

Bell, BA, Ferron, JM i Kromrey, JD (2008). Rozmiar klastra w modelach wielopoziomowych: wpływ rzadkich struktur danych na oszacowania punktów i przedziałów w modelach dwupoziomowych . Postępowania JSM, sekcja Metod badań ankietowych, 1122–1129.

Clarke, P. (2008). Kiedy klastrowanie na poziomie grupy można zignorować? Modele wielopoziomowe a modele jednopoziomowe z rzadkimi danymi . Journal of Epidemiology and Community Health, 62 (8), 752-758.

Clarke, P. i Wheaton, B. (2007). Rozwiązanie problemu rzadkości danych w kontekstowych badaniach populacji przy użyciu analizy skupień do tworzenia syntetycznych sąsiedztw . Metody socjologiczne i badania, 35 (3), 311-351.

Maas, CJ i Hox, JJ (2005). Wystarczające rozmiary próbek do modelowania wielopoziomowego . Metodologia, 1 (3), 86–92.


1
+1 świetna odpowiedź. Powiązane: Miałem problemy z logistycznymi wielopoziomowymi modelami, w których około połowa klastrów ma tylko 1 obserwację. Zobacz tutaj: stats.stackexchange.com/a/358460/130869
Mark White

4

W modelach mieszanych efekty losowe są najczęściej szacowane przy użyciu empirycznej metodologii Bayesa. Cechą tej metodologii jest kurczenie się. Mianowicie, oszacowane efekty losowe są zmniejszane do ogólnej średniej modelu opisanego przez część z efektami stałymi. Stopień skurczu zależy od dwóch składników:

  1. Wielkość wariancji efektów losowych w porównaniu z wielkością wariancji błędów. Im większa wariancja efektów losowych w stosunku do wariancji błędów, tym mniejszy stopień skurczu.

  2. Liczba powtórzonych pomiarów w klastrach. Oszacowania efektów losowych dla klastrów z większą liczbą powtarzanych pomiarów są zmniejszane mniej w stosunku do ogólnej średniej w porównaniu do klastrów z mniejszą liczbą pomiarów.

W twoim przypadku drugi punkt jest bardziej odpowiedni. Pamiętaj jednak, że proponowane rozwiązanie łączenia klastrów może również wpłynąć na pierwszy punkt.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.