Interpretacja trzech form „modelu mieszanego”

Jest takie rozróżnienie, które wprawia mnie w zakłopotanie w przypadku modeli mieszanych i zastanawiam się, czy mógłbym uzyskać trochę jasności. Załóżmy, że masz mieszany model danych zliczania. Istnieje zmienna, o której wiesz, że chcesz jako efekt stały (A), oraz inna zmienna czasu (T), pogrupowana według powiedzonej zmiennej „Site”.

Tak jak rozumiem:

glmer(counts ~ A + T, data=data, family="Poisson") to model efektów stałych.

glmer(counts ~ (A + T | Site), data=data, family="Poisson") jest modelem z efektem losowym.

Moje pytanie brzmi, kiedy masz coś takiego:

glmer(counts ~ A + T + (T | Site), data=data, family="Poisson")co to jest? Czy to efekt losowy? Naprawiony efekt? Co właściwie osiąga się, umieszczając T w obu miejscach?

Kiedy coś powinno pojawić się tylko w sekcji efektów losowych formuły modelu?

r mixed-model lme4-nlme

— Fomite
źródło

Odpowiedzi:

Można to wyjaśnić, wypisując formułę modelu dla każdego z tych trzech modeli. Niech będzie obserwacją osoby w miejscu w każdym modelu i zdefiniuj analogicznie, aby odwoływać się do zmiennych w twoim modelu. $Y_{ij}$ $i$ $j$ $A_{ij}, T_{ij}$

glmer(counts ~ A + T, data=data, family="Poisson") jest modelem

\log (mi (Y_{ja jot})) = β_{0} + β_{1} {ZA}_{ja jot} + β_{2)} {T.}_{ja jot}

$\log \big( E(Y_{ij}) \big) = \beta_0 + \beta_1 A_{ij} + \beta_2 T_{ij}$

który jest zwykłym modelem regresji Poissona.

glmer(counts ~ (A + T|Site), data=data, family="Poisson") jest modelem

\log (mi (Y_{ja jot})) = α_{0} + η_{jot 0} + η_{jot 1} {ZA}_{ja jot} + η_{jot 2)} {T.}_{ja jot}

$\log \big( E(Y_{ij}) \big) = \alpha_0 + \eta_{j0} + \eta_{j1} A_{ij} + \eta_{j2} T_{ij}$

gdzie są efektami losowymi, które są wspólne dla każdej obserwacji dokonanej przez osoby z miejsca . Te losowe efekty mogą być dowolnie skorelowane (tzn żadnych ograniczeń są na ) w określonym modelu. Aby narzucić niezależność, musisz umieścić je w różnych nawiasach, np. By to zrobił. Ten model zakłada, że $\eta_{j} = (\eta_{j0}, \eta_{j1}, \eta_{j2}) \sim N(0, \Sigma)$ $j$ $\Sigma$ (A-1|Site) + (T-1|Site) + (1|Site) wynosidla wszystkich witryn, ale każda strona ma losowe przesunięcie ( ) i ma losowy związek liniowy z . $\log \big( E(Y_{ij}) \big)$ $\alpha_0$ $\eta_{j0}$ $A_{ij}, T_{ij}$

glmer(counts ~ A + T + (T|Site), data=data, family="Poisson") jest modelem

\log (E (Y_{i j})) = (θ_{0} + γ_{j 0}) + θ_{1} A_{i j} + (θ_{2} + γ_{j 1}) T_{i j}

$\log \big( E(Y_{ij}) \big) = (\theta_0 + \gamma_{j0}) + \theta_1 A_{ij} + (\theta_2 + \gamma_{j1}) T_{ij}$

$\log \big( E(Y_{ij}) \big)$ $A_{ij}, T_{ij}$ $\theta_0, \theta_1, \theta_2$ $\gamma_{j0}, \gamma_{j1}, \gamma_{j2}$ . Oznacza to, że linia bazowa jest losowo przesuwana, a nachylenia dwóch zmiennych są losowo przesuwane, a wszyscy z tego samego miejsca dzielą to samo losowe przesunięcie.

co to jest? Czy to efekt losowy? Naprawiony efekt? Co właściwie osiąga się, umieszczając T w obu miejscach?

$T$ Site $T$ Site $\gamma_{j1}$ $T$ $\log \big( E(Y_{ij}) \big)$ .

Kiedy coś powinno pojawić się tylko w sekcji efektów losowych formuły modelu?

Jest to kwestia tego, co ma sens w kontekście aplikacji.

$\gamma_{j0}$

$\log \big( E(Y_{ij}) \big)$ $T$ Site

Zauważ, że możesz dopasować model z efektami losowymi i bez nich, aby sprawdzić, czy tak się dzieje - nie powinieneś widzieć żadnego efektu w stałym modelu, ale znaczące losowe efekty w kolejnym modelu. Muszę cię ostrzec, że takie decyzje są często lepiej podejmowane na podstawie zrozumienia aplikacji niż na podstawie wyboru modelu.

— Makro
źródło

(+1): napisanie wzoru dla każdego modelu jest rzeczywiście najlepszym sposobem na zwiększenie przejrzystości notowań R; dobra robota!

— ocram

@Macro Jedno pytanie o powyższe równania (dzięki za btw) - czy mają w nich również zwykły błąd? Jeśli tak, jaki jest indeks dolny tego terminu?

— Fomite

Cześć - jednym ze sposobów na napisanie GLM jest model

E (Y_{i j} | X)

$E(Y_{ij}|X)$ (lub wersja „połączona”), tak jak tutaj zrobiłem. Nie ma terminu błędu dla oczekiwanej wartości, jeśli model jest poprawnie określony. Aby odpowiedzieć na pytanie, w GLMs jesteśmy określenie rozkładu w

Y_{i j} | X

$Y_{ij}|X$ . „Pozostała” przypadkowość w modelu liniowym przejawia się w normalnie rozłożonym składniku błędu. Ale w nieliniowych GLM (np. Poissonie, logistyce) losowość jest „wbudowana”, ponieważ znajomość częstości poissona lub prob powodzenia próby bernoulli nie pozwala przewidzieć realizacji bez błędu. Mam nadzieję że to pomoże.

— Makro

Należy zauważyć, że Tżaden z twoich modeli nie jest terminem dotyczącym efektów losowych, ale efektem stałym. Losowe efekty są tylko te efekty, które pojawiają się po tym, |w lmerwzoru!

Bardziej dogłębną dyskusję na temat tego, co zawiera ta specyfikacja, można znaleźć w tym pytaniu dotyczącym lmer .

Z tych pytań twój model powinien dać (dla twojego stałego efektu T):

Globalny stok
Losowe określenie nachyleń określające odchylenie od ogólnego nachylenia dla każdego poziomu Site
Korelacja między losowymi zboczami.

I jak powiedział @ mark999, to rzeczywiście jest powszechna specyfikacja. W projektach z powtarzanymi pomiarami zazwyczaj chcesz mieć losowe nachylenia i korelacje dla wszystkich czynników powtarzanych pomiarów (w obrębie badanych).

Zobacz kilka przykładów (które zwykle tu cytuję):

Judd, CM, Westfall, J., i Kenny, DA (2012). Traktowanie bodźców jako przypadkowego czynnika w psychologii społecznej: Nowe i kompleksowe rozwiązanie wszechobecnego, ale w dużej mierze ignorowanego problemu. Journal of Personality and Social Psychology , 103 (1), 54–69. doi: 10.1037 / a0028347

— Henrik
źródło

Podobne odniesienie z ekologii: Schielzeth, Holger i Wolfgang Forstmeier. 2009. „Konkluzje poza wsparciem: nadmiernie pewne szacunki w modelach mieszanych”. Ekologia behawioralna 20 (2) (1 marca): 416–420. doi: 10.1093 / beheco / arn145. beheco.oxfordjournals.org/content/20/2/416 .

— Ben Bolker

Coś powinno pojawić się tylko w części losowej, gdy sam nie jesteś szczególnie zainteresowany jego parametrem, ale musisz go uwzględnić, aby uniknąć zależnych danych. Na przykład, jeśli dzieci są zagnieżdżone w klasach, zwykle chcesz, aby dzieci były tylko przypadkowym efektem.

— Peter Flom - Przywróć Monikę
źródło

Może źle cię rozumiem, ale pomyślałbym, że posiadanie stałych i losowych efektów dla tej samej zmiennej było częstsze niż zmienna mająca tylko efekt losowy. Posiadanie stałych i losowych efektów dla tej samej zmiennej nie jest rzadkością w książce Pinheiro i Bates.

— mark999

@MichaelChernick, jak rozumiem, jeśli masz ustalony efekt i efekt losowy dla tej samej zmiennej, to ustalony efekt jest ogólnym efektem w populacji, podczas gdy efekt losowy pozwala na inny efekt zmiennej dla każdego podmiotu. Istnieje kilka przykładów w Pinheiro & Bates.

— mark999

@PeterFlom, re: „jeśli dzieci są zagnieżdżone w klasach, zwykle chcesz, aby dzieci były tylko efektem losowym”. Myślę, że masz na myśli, że klasa jest efektem losowym. O ile dane nie są zagnieżdżone (np. Powtarzane pomiary u dzieci), losowe efekty na poziomie dziecka nie są rozpoznawane.

— Makro

@macro Tak, o to mi chodziło, przepraszam. Terminologia staje się bardzo myląca! Być może dlatego Gelman unika terminów „naprawiono” i „losowo”

— Peter Flom - Przywróć Monikę

@Michael, zgadzam się z tobą. W tego rodzaju modelach hierarchicznych efekty losowe są definiowane przez zmienną grupującą (w przeciwieństwie do innych modeli wielowymiarowych, takich jak przestrzennie indeksowane zestawy danych, w których zmienna „grupująca” stale się zmienia). W pytaniu OP, Sitebędzie określana jako efekt losowy, a nie Tlub Aczy cokolwiek innego. Myśląc o tym w ten sposób, Sitewyraźnie nie można było ustalić zarówno losowego, jak i losowego, ponieważ nie można byłoby ich zidentyfikować. Możesz mieć zarówno stałe, jak i losowe współczynniki dla zmiennej, ale to inne pytanie.

— Makro