TL; DR : Minimalna wielkość próby na klaster w modelu z efektami mieszanymi wynosi 1, pod warunkiem, że liczba klastrów jest wystarczająca, a odsetek klastrów singletonów nie jest „zbyt wysoki”
Dłuższa wersja:
Ogólnie liczba skupień jest ważniejsza niż liczba obserwacji na skupisko. Z 700 wyraźnie nie ma problemu.
Małe rozmiary klastrów są dość powszechne, szczególnie w badaniach społecznych, które opierają się na warstwowych planach próbkowania, i istnieje szereg badań, które badały wielkość próby na poziomie klastrów.
Podczas gdy zwiększenie wielkości klastra zwiększa moc statystyczną do oszacowania efektów losowych (Austin i Leckie, 2018), małe rozmiary klastrów nie prowadzą do poważnych stronniczości (Bell i in., 2008; Clarke, 2008; Clarke i Wheaton, 2007; Maas & Hox , 2005). Zatem minimalna wielkość próbki na klaster wynosi 1.
W szczególności Bell i wsp. (2008) przeprowadzili badanie symulacyjne Monte Carlo z proporcjami skupień singletonów (skupienia zawierające tylko jedną obserwację) w zakresie od 0% do 70% i stwierdzili, że pod warunkiem, że liczba skupień jest duża (~ 500) małe rozmiary klastrów prawie nie miały wpływu na stronniczość i kontrolę błędów typu 1.
Zgłoszono także bardzo niewiele problemów ze zbieżnością modeli w dowolnym ze scenariuszy modelowania.
W przypadku konkretnego scenariusza w PO sugerowałbym uruchomienie modelu z 700 klastrami w pierwszej kolejności. O ile nie byłoby z tym wyraźnego problemu, nie chciałbym łączyć klastrów. W R przeprowadziłem prostą symulację:
Tutaj tworzymy klastrowany zestaw danych z resztkową wariancją 1, pojedynczym stałym efektem również z 1, 700 klastrami, z których 690 to singletony, a 10 ma tylko 2 obserwacje. Przeprowadzamy symulację 1000 razy i obserwujemy histogramy szacowanych ustalonych i resztkowych efektów losowych.
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
Jak widać, ustalone efekty są bardzo dobrze oszacowane, podczas gdy pozostałe efekty losowe wydają się być nieco tendencyjne w dół, ale nie drastycznie:
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
PO w szczególności wspomina o oszacowaniu losowych efektów na poziomie klastra. W powyższej symulacji losowe efekty powstały po prostu jako wartość każdego Subject
identyfikatora (pomniejszona o współczynnik 100). Oczywiście nie są one normalnie rozmieszczone, co jest założeniem liniowych modeli efektów mieszanych, jednak możemy wyodrębnić (tryby warunkowe) efekty na poziomie klastra i wykreślić je względem rzeczywistych Subject
identyfikatorów:
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
Histogram nieco odbiega od normalności, ale wynika to ze sposobu, w jaki symulowaliśmy dane. Nadal istnieje uzasadniony związek między szacowanymi a rzeczywistymi efektami losowymi.
Bibliografia:
Peter C. Austin i George Leckie (2018) Wpływ liczby klastrów i wielkości klastra na moc statystyczną i wskaźniki błędów typu I podczas testowania składników wariancji efektów losowych w wielopoziomowych modelach regresji liniowej i logistycznej, Journal of Statistics Computation and Simulation, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945
Bell, BA, Ferron, JM i Kromrey, JD (2008). Rozmiar klastra w modelach wielopoziomowych: wpływ rzadkich struktur danych na oszacowania punktów i przedziałów w modelach dwupoziomowych . Postępowania JSM, sekcja Metod badań ankietowych, 1122–1129.
Clarke, P. (2008). Kiedy klastrowanie na poziomie grupy można zignorować? Modele wielopoziomowe a modele jednopoziomowe z rzadkimi danymi . Journal of Epidemiology and Community Health, 62 (8), 752-758.
Clarke, P. i Wheaton, B. (2007). Rozwiązanie problemu rzadkości danych w kontekstowych badaniach populacji przy użyciu analizy skupień do tworzenia syntetycznych sąsiedztw . Metody socjologiczne i badania, 35 (3), 311-351.
Maas, CJ i Hox, JJ (2005). Wystarczające rozmiary próbek do modelowania wielopoziomowego . Metodologia, 1 (3), 86–92.