Pytania dotyczące określenia liniowych modeli mieszanych w R dla danych z powtarzanymi pomiarami z dodatkową strukturą zagnieżdżenia

Struktura danych

> str(data)
 'data.frame':   6138 obs. of  10 variables:
 $ RT     : int  484 391 422 516 563 531 406 500 516 578 ...
 $ ASCORE : num  5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ...
 $ HSCORE : num  6 2.1 7.9 1 6.9 8.9 8.2 3.6 1.7 8.6 ...
 $ MVMNT  : Factor w/ 2 levels "_Withd","Appr": 2 2 1 1 2 1 2 1 1 2 ...
 $ STIM   : Factor w/ 123 levels " arti"," cele",..: 16 23 82 42 105 4 93 9 34 25 ...
 $ DRUG   : Factor w/ 2 levels "Inactive","Pharm": 1 1 1 1 1 1 1 1 1 1 ...
 $ FULLNSS: Factor w/ 2 levels "Fasted","Fed": 2 2 2 2 2 2 2 2 2 2 ...
 $ PATIENT: Factor w/ 25 levels "Subj01","Subj02",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ SESSION: Factor w/ 4 levels "Sess1","Sess2",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ TRIAL  : Factor w/ 6138 levels "T0001","T0002",..: 1 2 3 4 5 6 7 8 9 10 ...

Pełny model kandydata

model.loaded.fit <- lmer(RT ~ ASCORE*HSCORE*MVMNT*DRUG*FULLNSS
                              + (1|PATIENT) + (1|SESSION), data, REML = TRUE)

Czasy reakcji z badań są grupowane w ramach sesji, które z kolei są grupowane w obrębie pacjentów
Każdą próbę można scharakteryzować za pomocą dwóch ciągłych zmiennych towarzyszących ASCORE i HSCORE (w zakresie od 1 do 9) oraz odpowiedzi ruchowej (wycofanie lub podejście)
Sesje charakteryzują się przyjmowaniem narkotyków (placebo lub aktywna farmakologia) oraz pełnością (na czczo lub wcześniej)

Modelowanie i składnia R.

Próbuję określić odpowiedni pełny model z załadowaną średnią strukturą, która może być wykorzystana jako punkt początkowy w strategii wyboru modelu z góry na dół.

Szczegółowe problemy:

Czy składnia poprawnie określa efekty grupowania i losowe?
Czy poza tym składni ten model jest odpowiedni dla powyższego projektu wewnątrz tematu?
Czy pełny model powinien określać wszystkie interakcje stałych efektów, czy tylko te, które naprawdę mnie interesują?
Nie uwzględniłem współczynnika STIM w modelu, który charakteryzuje konkretny rodzaj bodźca zastosowanego w badaniu, ale którego nie jestem zainteresowany w żaden sposób oszacować - czy powinienem podać, że jako czynnik losowy ma on 123 poziomy i bardzo niewiele punkty danych według rodzaju bodźca?

— Cel
źródło

jeśli nie mogę znaleźć porady tutaj, naprawdę nie wiem, o kogo mógłbym zapytać? może znasz jakieś fora poświęcone modelom mieszanym lub nawet eksperta gotowego skonsultować się za niewielkie pieniądze?

— Cel

Cześć @Cel, wygląda na to, że masz WSZYSTKIE interakcje w modelu, w tym interakcje 5-kierunkowe, 4-kierunkowe i 3-kierunkowe. Nie jestem pewien co do tego przypadku, ale zwykle spowoduje to, że dane staną się nadmiernie zawyżone, co spowoduje, że wyniki będą mniej uogólnione. Wybór wstecz (jeśli musisz go użyć) nie musi zaczynać się od modelu całkowicie nasyconego - powinien zaczynać się od największego modelu, który uważasz za możliwy. Czy możesz to w ogóle zmniejszyć?

— Makro,

@Macro świetnie wiedzieć, uwzględnię tylko te interakcje, które wydają się wtedy prawdopodobne. masz sugestie dotyczące innych problemów? jeśli to zrobisz, być może odpowiedz na to pytanie, abym mógł to zaakceptować.

— Cel

Odpowiem na każde twoje pytanie po kolei.

Czy składnia poprawnie określa efekty grupowania i losowe?

Model, który tu pasujesz, jest matematycznie modelem

Y_{i j k} = X_{i j k} β + η_{i} + θ_{i j} + ε_{i j k}

$Y_{ijk} = {\bf X}_{ijk} {\boldsymbol \beta} + \eta_{i} + \theta_{ij} + \varepsilon_{ijk}$

gdzie

$Y_{ijk}$ to czas reakcji na obserwację podczas sesji na indywidualnej . $k$ $j$ $i$
${\bf X}_{ijk}$ jest wektorem predykcyjnym dla obserwacji podczas sesji na pojedynczym (w modelu, który napisałeś, składa się ze wszystkich głównych efektów i wszystkich interakcji). $k$ $j$ $i$
$\eta_i$ jest osobą efekt losowy, który indukuje korelacja pomiędzy obserwacjami poczynionymi w tej samej osobie. jest przypadkowy efekt indywidualnej „s sesji a to termin błąd resztki. $i$ $\theta_{ij}$ $i$ $j$ $\varepsilon_{ijk}$
${\boldsymbol \beta}$ to wektor współczynnika regresji.

Jak zauważono na stronie 14-15 tutaj, ten model jest poprawny do określania, że sesje są zagnieżdżone w poszczególnych osobach, tak jest w twoim opisie.

Czy poza tym składni ten model jest odpowiedni dla powyższego projektu wewnątrz tematu?

Myślę, że ten model jest rozsądny, ponieważ szanuje strukturę zagnieżdżania w danych i uważam, że jednostka i sesja są rozsądnie postrzegane jako efekty losowe, jak twierdzi ten model. Powinieneś spojrzeć na relacje między predyktorami a odpowiedzią na wykresach rozrzutu itp., Aby upewnić się, że predyktor liniowy ( ) jest poprawnie określony. Ewentualnie należy również zbadać inną standardową diagnostykę regresji. ${\bf X}_{ijk} {\boldsymbol \beta}$

Czy pełny model powinien określać wszystkie interakcje stałych efektów, czy tylko te, które naprawdę mnie interesują?

Myślę, że rozpoczęcie od tak mocno nasyconego modelu może nie być świetnym pomysłem, chyba że ma to sens merytoryczny. Jak powiedziałem w komentarzu, będzie to miało tendencję do przekraczania określonego zestawu danych i może powodować, że wyniki będą mniej ogólne. Jeśli chodzi o wybór modelu, jeśli zaczniesz od modelu całkowicie nasyconego i zrobisz zaznaczenie wstecz (do czego niektórzy ludzie na tej stronie, nie bez powodu, sprzeciwiają się ), musisz przestrzegać hierarchii w modelu. Oznacza to, że jeśli wyeliminujesz interakcję niższego poziomu z modelu, powinieneś również usunąć wszystkie interakcje wyższego poziomu obejmujące tę zmienną. Aby uzyskać więcej dyskusji na ten temat, zobacz połączony wątek.

Nie uwzględniłem współczynnika STIM w modelu, który charakteryzuje konkretny rodzaj bodźca zastosowanego w badaniu, ale którego nie jestem zainteresowany w żaden sposób oszacować - czy powinienem podać, że jako czynnik losowy ma on 123 poziomy i bardzo niewiele punkty danych według rodzaju bodźca?

Trzeba przyznać, że nic nie wiem o aplikacji (więc weź to z odrobiną soli), co brzmi jak ustalony efekt, a nie efekt losowy. Oznacza to, że rodzaj leczenia brzmi jak zmienna odpowiadająca ustalonemu przesunięciu średniej odpowiedzi, a nie coś, co wywołałoby korelację między podmiotami, które miały ten sam typ bodźca. Ale fakt, że jest to współczynnik poziomu 123, sprawia, że wejście do modelu jest uciążliwe. Przypuszczam, że chciałbym wiedzieć, jak duży efekt byś tego oczekiwał. Niezależnie od wielkości efektu, nie spowoduje to błędu w oszacowaniach nachylenia, ponieważ jest to model liniowy, ale pominięcie go może spowodować, że standardowe błędy będą większe niż w innym przypadku.

— Makro
źródło

łał. dziękuję Makro, chciałbym dać więcej punktów.

— Cel

Ponieważ losowe efekty są skrzyżowane, a nie losowe, czy notacja powinna być i (zamiast ), skoro skoro została skrzyżowana (a nie zagnieżdżona) z pacjentem?

η_{i}

$\eta_{i}$

θ_{j}

$\theta_{j}$

θ_{j}

$\theta_{j}$

— Joshua Rosenberg