Zasadniczo, moim zdaniem, najbardziej wyraźną różnicą, jeśli modelujesz czynnik jako losowy, jest to, że zakłada się, że efekty zostały wyciągnięte ze wspólnego rozkładu normalnego.
Na przykład, jeśli masz jakiś model dotyczący ocen i chcesz wziąć pod uwagę dane uczniów pochodzące z różnych szkół i modelujesz szkołę jako czynnik losowy, oznacza to, że zakładasz, że średnie według szkół są zwykle rozkładane. Oznacza to, że modeluje się dwa źródła zmienności: zmienność ocen uczniów w szkole oraz zmienność między szkołami.
Powoduje to coś zwanego częściowym łączeniem pul . Rozważ dwie skrajności:
- Szkoła nie ma żadnego efektu (zmienność między szkołami wynosi zero). W takim przypadku model liniowy, który nie uwzględnia szkoły, byłby optymalny.
- Zmienność szkół jest większa niż zmienność uczniów. Następnie w zasadzie musisz pracować na poziomie szkoły zamiast na poziomie uczniów (mniej # próbek). Jest to w zasadzie model, w którym rozliczasz szkołę za pomocą ustalonych efektów. Może to być problematyczne, jeśli masz kilka próbek na szkołę.
Szacując zmienność na obu poziomach, model mieszany stanowi inteligentny kompromis między tymi dwoma podejściami. Zwłaszcza jeśli masz nie tak dużą liczbę uczniów na szkołę, oznacza to, że zmniejszysz efekty dla poszczególnych szkół, oszacowane przez model 2 w stosunku do ogólnej średniej z modelu 1.
Jest tak, ponieważ modele mówią, że jeśli masz jedną szkołę z dwoma uczniami, co jest lepsze niż to, co jest „normalne” dla populacji szkół, prawdopodobne jest, że część tego efektu tłumaczy szkoła, która miała szczęście w wyborze dwóch studentów spojrzało. Nie czyni tego ślepo, robi to w zależności od oszacowania zmienności wewnątrz szkoły. Oznacza to również, że poziomy efektów przy mniejszej liczbie próbek są silniej przyciągane do ogólnej średniej niż w dużych szkołach.
Ważne jest, że potrzebujesz wymienności na poziomach współczynnika losowego. Oznacza to, że w tym przypadku szkoły są (z twojej wiedzy) wymienialne i nie wiesz nic, co je wyróżnia (poza jakimś dowodem tożsamości). Jeśli posiadasz dodatkowe informacje, możesz to uwzględnić jako dodatkowy czynnik, wystarczy, że szkoły są wymienialne pod warunkiem uwzględnienia innych informacji.
Na przykład sensowne byłoby założenie, że 30-letni dorośli mieszkający w Nowym Jorku podlegają wymianie zależnej od płci. Jeśli posiadasz więcej informacji (wiek, pochodzenie etniczne, wykształcenie), sensowne byłoby również włączenie tych informacji.
OTH, jeśli studiujesz z jedną grupą kontrolną i trzema bardzo różnymi grupami chorób, nie ma sensu modelować grupy jako losowej, ponieważ określonej choroby nie można wymienić. Jednak wielu ludzi tak bardzo lubi efekt skurczu, że wciąż opowiadają się za modelem efektów losowych, ale to już inna historia.
Zauważyłem, że nie za bardzo wgłębiłem się w matematykę, ale w zasadzie różnica polega na tym, że model efektów losowych oszacował normalnie rozłożony błąd zarówno na poziomie szkół, jak i na poziomie uczniów, podczas gdy model efektów stałych ma tylko błąd poziom studentów. Szczególnie oznacza to, że każda szkoła ma własny poziom, który nie jest połączony z innymi poziomami za pomocą wspólnej dystrybucji. Oznacza to również, że model stały nie pozwala na ekstrapolację ucznia szkoły nieuwzględnionego w oryginalnych danych, podczas gdy robi to model efektu losowego, ze zmiennością, która jest sumą poziomu ucznia i zmienności na poziomie szkoły. Jeśli jesteś szczególnie zainteresowany prawdopodobieństwem, możemy to wykorzystać.