Ta odpowiedź nie opiera się na mojej wiedzy, ale raczej cytuje to, co Bolker i in. (2009) napisał we wpływowym artykule w czasopiśmie Trends in Ecology and Evolution . Ponieważ artykuł nie ma otwartego dostępu (chociaż wyszukiwanie go w Google Scholar może się powieść, pomyślałem, że zacytowałem ważne fragmenty, które mogą być pomocne w rozwiązaniu części pytań. Ponownie, to nie jest to, co wymyśliłem, ale myślę, że reprezentuje najlepsze skondensowane informacje o GLMM (w tym diagnostykę) w bardzo prostym i łatwym do zrozumienia stylu pisania. Jeśli w jakikolwiek sposób ta odpowiedź nie jest odpowiednia z jakiegokolwiek powodu, po prostu ją usunę. przydatne w odniesieniu do pytań dotyczących diagnostyki są wyróżnione wpogrubione .
Page 127:
Badacze mający do czynienia z nietypowymi danymi często wypróbowują skróty, takie jak przekształcanie danych w celu osiągnięcia normalności i jednorodności wariancji, przy użyciu testów nieparametrycznych lub opierając się na odporności klasycznej ANOVA na nienormalność dla zrównoważonych projektów [15]. Mogą całkowicie ignorować efekty losowe (popełniając w ten sposób pseudoreplikację) lub traktować je jako ustalone czynniki [16]. Jednak takie skróty mogą zawieść (np. Dane zliczające z wieloma wartościami zerowymi nie mogą być normalne przez transformację). Nawet jeśli im się powiedzie, mogą naruszyć założenia statystyczne (nawet testy nieparametryczne przyjmują założenia, np. Jednorodności wariancji między grupami) lub ograniczyć zakres wnioskowania (nie można ekstrapolować oszacowań ustalonych efektów na nowe grupy). Zamiast przekształcić swoje dane w klasyczne ramy statystyczne, badacze powinni stosować podejścia statystyczne, które pasują do ich danych. Uogólnione liniowe modele mieszane (GLMM) łączą właściwości dwóch ram statystycznych, które są szeroko stosowane w ekologii i ewolucji, liniowych modeli mieszanych (które zawierają efekty losowe) i uogólnionych modeli liniowych (które obsługują dane nienormalne za pomocą funkcji łącza i rodziny wykładniczej [np. rozkład normalny, Poissona lub dwumianowy]). GLMM są najlepszym narzędziem do analizy nietypowych danych, które dotyczą efektów losowych: wszystko, co należy zrobić, to w zasadzie określić rozkład, funkcję połączenia i strukturę efektów losowych. liniowe modele mieszane (które zawierają efekty losowe) i uogólnione modele liniowe (które obsługują dane nienormalne za pomocą funkcji łącza i wykładniczej rodziny [np. rozkład normalny, Poissona lub dwumianowy]). GLMM są najlepszym narzędziem do analizy nietypowych danych, które dotyczą efektów losowych: wszystko, co należy zrobić, to w zasadzie określić rozkład, funkcję połączenia i strukturę efektów losowych. liniowe modele mieszane (które zawierają efekty losowe) i uogólnione modele liniowe (które obsługują dane nienormalne za pomocą funkcji łącza i wykładniczej rodziny [np. rozkład normalny, Poissona lub dwumianowy]). GLMM są najlepszym narzędziem do analizy nietypowych danych, które dotyczą efektów losowych: wszystko, co należy zrobić, to w zasadzie określić rozkład, funkcję połączenia i strukturę efektów losowych.
Strona 129, ramka 1:
Do reszty wskazano overdispersion , więc refitted dane z modelu quasi-Poissona. Pomimo dużego oszacowanego parametru skali (10,8), wykresy eksploracyjne nie wykazały dowodów na wartości odstające na poziomie osobników, genotypów lub populacji. Zastosowaliśmy quasi-AIC (QAIC), wykorzystując jeden stopień swobody dla efektów losowych [49], dla efektu losowego, a następnie do wyboru modelu z efektem stałym.
Page 133, Ramka 4:
Poniżej przedstawiamy ogólne ramy budowy pełnego (najbardziej złożonego) modelu, pierwszy krok w analizie GLMM. Po tym procesie można następnie oceniać parametry i porównywać submodele zgodnie z opisem w tekście głównym i na rysunku 1.
Określ ustalone (leczenie lub zmienne towarzyszące) i losowe (eksperymentalne, przestrzenne lub czasowe bloki, osobniki itp.). Uwzględnij tylko ważne interakcje. Ogranicz a priori model do możliwego poziomu złożoności, w oparciu o podstawowe zasady (> 5–6 poziomów efektu losowego na efekt losowy i> 10–20 próbek na poziom leczenia lub jednostkę eksperymentalną) i znajomość odpowiednich wielkości próbek uzyskanych z wcześniejsze badania [64, 65].
Wybierz rozkład błędów i funkcję łącza (np. Rozkład Poissona i link dziennika dla danych zliczania, rozkład dwumianowy i link logu dla danych proporcji).
Kontrola graficzna : czy wariancje danych (transformowane przez funkcję link) są jednorodne w poszczególnych kategoriach? Czy odpowiedzi przekształconych danych są liniowe w stosunku do ciągłych predyktorów? Czy są jakieś oddzielne osoby lub grupy? Czy rozkłady w grupach są zgodne z założonym rozkładem?
Dopasuj GLM o stałym efekcie zarówno do pełnego (połączonego) zestawu danych, jak i do każdego poziomu czynników losowych [28,50]. Szacowane parametry powinny być w przybliżeniu normalnie rozłożone na grupy (parametry na poziomie grupy mogą mieć duże niepewności, szczególnie w przypadku grup o małej wielkości próby). Dostosuj model w razie potrzeby (np. Zmień funkcję łącza lub dodaj zmienne towarzyszące).
Dopasuj pełny GLMM. Niewystarczająca pamięć komputera lub zbyt wolno: zmniejsz złożoność modelu. Jeśli oszacowanie się powiedzie na podzbiorze danych, spróbuj wydajniejszego algorytmu oszacowania (np. PQL, jeśli to właściwe). Niezgodność (ostrzeżenia lub błędy): zmniejsz złożoność modelu lub zmień ustawienia optymalizacji (upewnij się, że otrzymane odpowiedzi mają sens). Wypróbuj inne algorytmy szacowania. Komponenty zerowe wariancji lub osobliwość (ostrzeżenia lub błędy): sprawdź, czy model jest poprawnie zdefiniowany i możliwy do zidentyfikowania (tj. Wszystkie komponenty można teoretycznie oszacować). Zmniejsz złożoność modelu. Dodanie informacji do modelu (dodatkowe zmienne towarzyszące lub nowe grupowanie efektów losowych) może złagodzić problemy, podobnie jak centrowanie ciągłych zmiennych towarzyszących przez odjęcie ich średniej [50]. W razie potrzeby wyeliminuj losowe efekty z pełnego modelu, pomijanie (i) warunków o mniejszym znaczeniu biologicznym, (ii) warunków z bardzo małymi szacowanymi wariancjami i / lub dużą niepewnością, lub (iii) warunków interakcji. (Błędy konwergencji lub zerowe wariancje mogą wskazywać na niewystarczające dane.)
χ2)
Wykresy resztkowe powinny być wykorzystane do oceny naddyspersji, a przekształcone wariancje powinny być jednorodne we wszystkich kategoriach. Nigdzie w artykule nie wspomniano, że reszty powinny być normalnie rozmieszczone.
Myślę, że powód, dla którego istnieją kontrastujące stwierdzenia, odzwierciedla fakt, że GLMM (strony 127-128) ...
... są zaskakująco trudne w użyciu nawet dla statystyk. Chociaż kilka pakietów oprogramowania może obsługiwać GLMM (Tabela 1), niewielu ekologów i biologów ewolucyjnych jest świadomych zakresu opcji lub możliwych pułapek. Przeglądając artykuły dotyczące ekologii i ewolucji od 2005 r. Znalezione przez Google Scholar, 311 z 537 analiz GLMM (58%) w jakiś sposób niewłaściwie wykorzystało te narzędzia (patrz materiał uzupełniający online).
A oto kilka w pełni sprawdzonych przykładów wykorzystujących GLMM, w tym diagnostyki.
Zdaję sobie sprawę, że ta odpowiedź bardziej przypomina komentarz i powinna być traktowana jako taka. Ale sekcja komentarzy nie pozwala mi dodać tak długiego komentarza. Ponieważ uważam, że ten artykuł ma wartość dla tej dyskusji (ale niestety za ścianą płatniczą), pomyślałem, że warto tu przytoczyć ważne fragmenty.
Cytowane artykuły:
[15] - GP Quinn, MJ Keough (2002): Experimental Design and Data Analysis for Biologists, Cambridge University Press.
[16] - MJ Crawley (2002): Obliczenia statystyczne: wprowadzenie do analizy danych za pomocą S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Modele z efektami mieszanymi w S i S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): Informacje warunkowe podobne dla modeli z efektami mieszanymi. Biometrika, 92, ss. 351–370.
[50] - A. Gelman, J. Hill (2006): Analiza danych przy użyciu regresji i modeli wielopoziomowych / hierarchicznych, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): A Primer of Ecological Statistics, Sinauer Associates.
[65] - FJ Harrell (2001): Strategie modelowania regresji, Springer.
[66] - JK Lindsey (1997): Zastosowanie uogólnionych modeli liniowych, Springer.
[67] - W. Venables, BD Ripley (2002): Modern Applied Statistics with S, Springer.
glm.diag.plots
Mówi , że dotyczy to zboczonego odchylenia (podejrzewam, że rozróżnienie jest ważne). Rozumiem również, że masz dane zliczania ; możesz skupić się na tym fakcie. Np. Liczby mają być (w pewnym sensie) heteroscedastyczne. Wykresy diagnostyczne dla regresji zliczania powinny być dla Ciebie pomocne (chociaż nie dotyczą aspektu efektów mieszanych).