Porównywanie modeli efektów mieszanych o tej samej liczbie stopni swobody

15

Mam eksperyment, który spróbuję tu streścić. Wyobraź sobie, że rzucam przed sobą trzy białe kamienie i proszę, abyś osądził ich pozycję. Rejestruję różnorodne właściwości kamieni i twoją odpowiedź. Robię to na wiele tematów. Generuję dwa modele. Jednym z nich jest to, że najbliższy kamień przewiduje Twoją odpowiedź, a drugi to, że geometryczny środek kamieni przewiduje Twoją odpowiedź. Używając lmera w RI można pisać.

mNear   <- lmer(resp ~ nearest + (1|subject), REML = FALSE)
mCenter <- lmer(resp ~ center  + (1|subject), REML = FALSE)

AKTUALIZACJA I ZMIANA - bardziej bezpośrednia wersja zawierająca kilka pomocnych komentarzy

Mogłabym spróbować

anova(mNear, mCenter)

Co jest oczywiście niepoprawne, ponieważ nie są zagnieżdżone i nie mogę ich tak naprawdę porównać. Spodziewałem się, że anova.mer zgłosi błąd, ale tak się nie stało. Ale możliwe zagnieżdżenie, które mógłbym tutaj wypróbować, nie jest naturalne i wciąż pozostawia mi nieco mniej analityczne stwierdzenia. Gdy modele są zagnieżdżone w sposób naturalny (np. Kwadratowy na liniowym), test jest tylko jeden sposób. Ale co w tym przypadku oznaczałoby asymetryczne ustalenia?

Na przykład mógłbym zrobić model trzy:

mBoth <- lmer(resp ~ center + nearest + (1|subject), REML = FALSE)

Więc mogę anova.

anova(mCenter, mBoth)
anova(mNearest, mBoth)

Jest to słuszne i teraz stwierdzam, że środek dodaje do najbliższego efektu (drugie polecenie), ale BIC faktycznie rośnie, gdy najbliższy jest dodawany do środka (korekta dolnego parsimony). Potwierdza to, co było podejrzane.

Ale czy znalezienie tego jest wystarczające? I czy to jest sprawiedliwe, gdy centrum i najbliższy są tak bardzo skorelowani?

Czy istnieje lepszy sposób analitycznego porównania modeli, gdy nie chodzi o dodawanie i odejmowanie zmiennych objaśniających (stopnie swobody)?

r mixed-model model-selection

— Jan
źródło

Twoje modele nie są zagnieżdżone, jakie byłoby uzasadnienie zastosowania LRT między nimi?

— chl

powtórzyłem rzeczy zgodnie z twoim komentarzem

— Jan

9

Mimo to można obliczyć przedziały ufności dla ustalonych efektów i zgłosić AIC lub BIC (patrz np. Cnann i in. , Stat Med 1997 16: 2349).

Teraz możesz zainteresować się oceną naśladowania modelu za pomocą parametrycznego bootstrap , autorstwa Wagenmakers i in. co wydaje się bardziej przypominać początkowe pytanie dotyczące oceny jakości dwóch konkurencyjnych modeli.

W przeciwnym razie dwa artykuły na temat miary wyjaśnionej wariancji w LMM, które przychodzą mi do głowy:

Lloyd J. Edwards, Keith E. Muller, Russell D. Wolfinger, Bahjat F. Qaqish i Oliver Schabenberger (2008). Statystyka R2 dla stałych efektów w liniowym modelu mieszanym , Statystyka w medycynie , 27 (29), 6137–6157.
Ronghui Xu (2003). Mierzenie wyjaśnionej zmienności w liniowych modelach efektów mieszanych, Statistics in Medicine , 22 (22), 3527–3541.

Ale może są lepsze opcje.

— chl
źródło

11

Postępowanie zgodnie z sugestią ronafa prowadzi do bardziej aktualnego artykułu Vuonga dotyczącego testu współczynnika wiarygodności na modelach nieporuszonych. Opiera się na KLIC (Kullback-Leibler Information Criterion), który jest podobny do AIC, ponieważ minimalizuje odległość KL. Ale ustanawia probabilistyczną specyfikację dla hipotezy, więc użycie LRT prowadzi do bardziej zasadniczego porównania. Bardziej dostępna wersja testów Coxa i Vuonga została przedstawiona przez Clarke i in .; w szczególności patrz rysunek 3, który przedstawia algorytm obliczania testu Vuong LRT.

Testy ilorazu wiarygodności dla wyboru modelu i hipotez nie zagnieżdżonych (Vuong, 1999)
Testowanie nienastawionych modeli stosunków międzynarodowych: przewartościowanie realizmu (Clarke i in., 2000)

Wygląda na to, że istnieją implementacje R testu Vuong w innych modelach, ale nie lmer. Jednak wspomniany powyżej zarys powinien wystarczyć do jego wdrożenia. Nie sądzę, aby można było oszacować prawdopodobieństwo oszacowane w każdym punkcie danych z lmera, jak jest to wymagane do obliczeń. W notatce na temat sig-ME Douglas Bates ma pewne wskazówki, które mogą być pomocne (w szczególności wspomnianą winietę ).

Starsze

Inną opcją jest rozważenie dopasowanych wartości z modeli w teście dokładności prognozowania. Statystyka Williamsa-Kloota może być tutaj odpowiednia. Podstawowym podejściem jest regresja wartości rzeczywistych względem liniowej kombinacji dopasowanych wartości z dwóch modeli i przetestowanie nachylenia:

Test rozróżniania modeli rozróżniania (Atikinson, 1969)
Wzrost i państwo opiekuńcze w UE: analiza przyczynowości (Herce i in., 2001)

Pierwszy artykuł opisuje test (i inne), podczas gdy drugi ma zastosowanie w ekonometrycznym modelu panelu.

Podczas używania lmeri porównywania AIC domyślną funkcją jest użycie metody REML (Ograniczone maksymalne prawdopodobieństwo). Jest to przydatne do uzyskiwania mniej tendencyjnych oszacowań, ale przy porównywaniu modeli powinieneś ponownie dopasować, z REML=FALSEktórym używa się metody Maksymalnego prawdopodobieństwa do dopasowania. W książce Pinheiro / Bates wspomniano o pewnych warunkach, w których można porównywać AIC / Prawdopodobieństwo z REML lub ML, i mogą one mieć zastosowanie w twoim przypadku. Jednak ogólne zalecenie to po prostu ponowne dopasowanie. Na przykład zobacz post Douglasa Batesa tutaj:

Jak mogę wyodrębnić wynik AIC z obiektu modelu mieszanego wytworzonego przy użyciu Lmer?

— ars
źródło

Nie określiłem, że dopasowałem REML = FALSE. Nadal jestem trochę niepewny ... AIC daje mi pomiar całego prawdopodobieństwa, w tym losowych efektów. To duży element. I oczywiście AIC są bardzo mało prawdopodobne, aby były dokładnie takie same. Dlatego wydaje się nierozsądne, aby po prostu wybrać większą wartość bez jakiegoś analitycznego sposobu określenia, o ile jest ona większa.

— Jan

@John Wykład podkreśla interesujący punkt na temat REML vs. ML i AIC (i wskazuje na to, co powiedziałeś, John), j.mp/bhUVNt . Warto też zapoznać się z recenzją GLMM autorstwa Bolkera: j.mp/cAepqA .

— chl

4

jest artykuł autorstwa drcoxa, który omawia testowanie osobnych [niezaniechanych] modeli. rozważa kilka przykładów, które nie powodują złożoności modeli mieszanych. [ponieważ moja funkcja z kodem R jest ograniczona, nie jestem pewien, jakie są twoje modele.]

artykuł altho coxa może nie rozwiązać twojego problemu bezpośrednio, może być pomocny na dwa możliwe sposoby.

możesz wyszukiwać w Google Scholar cytaty do jego pracy, aby sprawdzić, czy kolejne takie wyniki zbliżą się do tego, czego chcesz.
jeśli masz skłonność analityczną, możesz spróbować zastosować metodę Coxa do swojego problemu. [może nie dla osób o słabych nerwach.]

btw - cox wspomina przy przekazywaniu pomysłu srikant poruszył połączenie dwóch modeli w jeden większy. nie dąży do tego, jak zdecydować, który model jest lepszy, ale zauważa, że nawet jeśli żaden model nie jest bardzo dobry, model łączony może odpowiednio dopasować dane. [w twojej sytuacji nie jest jasne, czy kombinowany model miałby sens.]

— ronaf
źródło

3

Nie znam R na tyle dobrze, aby parsować kod, ale oto jeden pomysł:

Oszacuj model, w którym masz zarówno środek, jak i bliską zmienną towarzyszącą (nazwij to mBoth). Następnie mCenter i mNear są zagnieżdżone w mBoth i można użyć mBoth jako punktu odniesienia do porównania względnej wydajności mCenter i mNear.

1

Myślałem, że to nie byłoby właściwe, ponieważ te dwa byłyby w rzeczywistości wysoce skorelowane. Ponieważ centrum jest daleko, tak też będzie w pobliżu.

— Jan

@John Dobra uwaga.

Myślę, że twój punkt widzenia jest również dobry ... Właściwie to nie jestem pewien, czy to ma znaczenie. Wiem, że jest wysoki, ale poniżej 0,8 ... wciąż można go analizować.

— Jan