Nauczyłem się w statystyce elementarnej, że przy ogólnym modelu liniowym, aby wnioski były ważne, obserwacje muszą być niezależne. Kiedy występuje klastrowanie, niezależność może już nie prowadzić, prowadząc do nieprawidłowego wnioskowania, chyba że zostanie to uwzględnione. Jednym ze sposobów uwzględnienia takiego grupowania jest użycie modeli mieszanych. Chciałbym znaleźć przykładowy zestaw danych, symulowany lub nie, który wyraźnie to pokazuje. Próbowałem użyć jednego z przykładowych zestawów danych na stronie UCLA do analizy danych klastrowych
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
Jeśli czegoś mi nie brakuje, wyniki są na tyle podobne, że nie sądzę, że dane wyjściowe lm()
są nieprawidłowe. Przyjrzałem się innym przykładom (np. 5.2 z Bristol University Centre for Multilevel Modeling ) i odkryłem, że standardowe błędy również nie są strasznie różne (nie interesują mnie same losowe efekty z modelu mieszanego, ale warto zauważyć, że ICC z wyników modelu mieszanego wynosi 0,42).
Tak więc moje pytania to: 1) w jakich warunkach standardowe błędy będą się znacznie różnić w przypadku klastrowania oraz 2) czy ktoś może podać przykład takiego zestawu danych (symulowanego lub nie).