Obawiam się, że mógłbym uzyskać zgrubioną i być może niezadowalającą odpowiedź, że jest to subiektywny wybór badacza lub analityka danych. Jak wspomniano w innym miejscu tego wątku, nie wystarczy po prostu powiedzieć, że dane mają „zagnieżdżoną strukturę”. Szczerze mówiąc, tyle książek opisuje, kiedy stosować modele wielopoziomowe. Na przykład właśnie wyciągnąłem książkę Joop Hox Multilevel Analysis z mojej półki, co daje następującą definicję:
Problem wielopoziomowy dotyczy populacji o strukturze hierarchicznej.
Nawet w całkiem dobrym podręczniku początkowa definicja wydaje się kolista. Myślę, że jest to częściowo spowodowane subiektywnością określania, kiedy użyć jakiego rodzaju modelu (w tym modelu wielopoziomowego).
Inna książka, Linear Mixed Models , West, Welch i Galecki mówi, że te modele są przeznaczone do:
zmienne wynikowe, w których reszty są normalnie rozmieszczone, ale mogą nie być niezależne lub mieć stałą wariancję. Projekty badań prowadzące do zestawów danych, które można odpowiednio analizować za pomocą LMM, obejmują (1) badania z danymi klastrowymi, takimi jak uczniowie w klasach, lub projekty eksperymentalne z losowymi blokami, takimi jak partie surowca do procesu przemysłowego, oraz (2) badania podłużne lub powtarzane, w których osobniki są mierzone wielokrotnie w czasie lub w różnych warunkach.
Modelowanie wielopoziomowe Fincha, Bolina i Kelleya w R mówi również o naruszeniu założenia iid i skorelowanych reszt:
Szczególnie ważne w kontekście modelowania wielopoziomowego jest założenie [w regresji standardowej] niezależnie rozłożonych terminów błędów dla poszczególnych obserwacji w próbie. To założenie zasadniczo oznacza, że po uwzględnieniu zmiennych niezależnych w analizie nie ma zależności między osobami w próbie dla zmiennej zależnej.
Uważam, że model wielopoziomowy ma sens, gdy istnieje powód, by sądzić, że obserwacje niekoniecznie są od siebie niezależne. Cokolwiek „klaster” bierze pod uwagę w przypadku tej nie-niezależności, można modelować.
Oczywistym przykładem mogą być dzieci w klasach - wszystkie one wchodzą ze sobą w interakcje, co może prowadzić do braku niezależności wyników testu. Co jeśli jedna klasa ma kogoś, kto zadaje pytanie, które prowadzi do objęcia materiału tą klasą, która nie jest objęta innymi klasami? Co się stanie, jeśli nauczyciel będzie bardziej obudzony na niektóre klasy niż na inne? W takim przypadku miałaby miejsce pewna niezależność danych; w słowach wielopoziomowych moglibyśmy oczekiwać, że pewna wariancja zmiennej zależnej będzie spowodowana przez klaster (tj. klasę).
Twój przykład psa kontra słonia zależy, jak sądzę, od niezależnych i zależnych zmiennych. Załóżmy na przykład, że pytamy, czy kofeina ma wpływ na poziom aktywności. Zwierzęta z całego zoo są losowo przydzielane do otrzymania napoju z kofeiną lub napoju kontrolnego.
Jeśli jesteśmy badaczami zainteresowanymi kofeiną, moglibyśmy określić model wielopoziomowy, ponieważ naprawdę zależy nam na działaniu kofeiny. Ten model zostałby określony jako:
activity ~ condition + (1+condition|species)
Jest to szczególnie pomocne, jeśli istnieje duża liczba gatunków, nad którymi testujemy tę hipotezę. Jednak naukowiec może być zainteresowany specyficznymi dla gatunku skutkami kofeiny. W takim przypadku mogliby określić gatunek jako stały efekt:
activity ~ condition + species + condition*species
Jest to oczywiście problem, jeśli istnieje, powiedzmy, 30 gatunków, tworząc nieporęczny projekt 2 x 30. Możesz jednak wykazać się kreatywnością dzięki modelowaniu tych relacji.
Na przykład niektórzy badacze opowiadają się za jeszcze szerszym zastosowaniem modelowania wielopoziomowego. Gelman, Hill i Yajima (2012) twierdzą, że modelowanie wielopoziomowe może być wykorzystane jako korekta wielu porównań - nawet w badaniach eksperymentalnych, w których struktura danych nie ma oczywiście hierarchicznej natury:
Trudniejsze problemy powstają podczas modelowania wielu porównań o większej strukturze. Załóżmy na przykład, że mamy pięć miar wyników, trzy odmiany leczenia i podgrupy sklasyfikowane według dwóch płci i czterech grup rasowych. Nie chcielibyśmy modelować tej struktury 2 × 3 × 4 × 5 jako 120 wymiennych grup. Nawet w tych bardziej złożonych sytuacjach uważamy, że modelowanie wielopoziomowe powinno i ostatecznie zastąpi klasyczne procedury wielokrotnych porównań.
Problemy można modelować na różne sposoby, aw niejednoznacznych przypadkach wiele podejść może wydawać się pociągających. Myślę, że naszym zadaniem jest wybrać rozsądne, świadome podejście i zrobić to w sposób przejrzysty.