Niech oznaczają wektor odpowiedzi i predyktora (odpowiednio) ucznia i w szkole j .yij,xijij
(1) W przypadku danych binarnych uważam, że standardowym sposobem dekompozycji wariancji analogicznym do tych wykonywanych dla danych ciągłych jest to, co autorzy nazywają Metodą D (skomentuję inne metody poniżej) w twoim linku - wyobrażając sobie dane binarne jako wynikające z podstawowej zmiennej ciągłej zarządzanej przez model liniowy i rozkładającej wariancję na tej skali utajonej. Powodem jest to, że modele logistyczne (i inne GLM) naturalnie powstają w ten sposób -
Aby to zobaczyć, zdefiniuj tak, aby rządził nim liniowy model mieszany:y⋆ij
y⋆ij=α+xijβ+ηj+εij
gdzie są współczynnikami regresji, η j ∼ N ( 0 , σ 2 ) to losowy efekt na poziomie szkolnym, a ε i j jest rezydualnym składnikiem wariancji i ma standardowy rozkład logistyczny . Teraz pozwólα,βηj∼N(0,σ2)εij
yij=⎧⎩⎨⎪⎪10if y⋆ij≥0if y⋆ij<0
niech teraz, po prostu używając logistycznego CDF, który mamypij=P(yij=1|xij,ηj)
pij=1−P(y⋆ij<0|xij,ηj)=exp{−(α+xijβ+ηj)}1+exp{−(α+xijβ+ηj)}
teraz biorąc transformację logitową obu stron, masz
log(pij1−pij)=α+xijβ+ηj
który jest dokładnie logistycznym modelem efektów mieszanych. Zatem model logistyczny jest równoważny z ukrytym modelem zmiennej określonym powyżej. Jedna ważna uwaga:
- Skala nie jest identyfikowana, ponieważ jeśli zmniejszysz ją, ale stałe s , po prostu zmieni powyższe naεijs
exp{−(α+xijβ+ηj)/s}1+exp{−(α+xijβ+ηj)/s}
dlatego współczynniki i efekty losowe zostałyby po prostu powiększone o odpowiednią kwotę. Tak więc, a = 1 stosuje się, co oznacza, v r ( ε i j ) = π 2 / 3 .
s=1var(εij)=π2/3
Teraz, jeśli użyjesz tego modelu, a następnie ilości
σ^2ησ^2η+π2/3
szacuje korelację wewnątrzklasową ukrytych zmiennych ukrytych . Kolejna ważna uwaga:
- Jeśli zamiast tego ma standardowy rozkład normalny, masz model probit efektów mieszanych . W takim przypadku Ď 2 rjεijszacujetetrachorycznej korelacjapomiędzy dwoma losowo wybranych uczniów w tej samej szkole, co do których wykazano Pearson (około 1900 chyba) statystycznie zidentyfikowane, gdy bazowe Dane ciągłe się rozkładem normalnym (praca ta w rzeczywistości wykazano, że te korelacji zostały zidentyfikowane poza przypadkiem binarnym do przypadku wielu kategorii, gdzie korelacje te są nazywanekorelacjami polichorycznymi). Z tego powodu może być wskazane (i byłoby to moim zaleceniem) zastosowanie modelu probit, gdy głównym celem jest oszacowanie (tetrachorycznej) wewnątrzklasowej korelacji danych binarnych.
σ^2ησ^2η+1
W odniesieniu do innych metod wymienionych w powiązanym dokumencie:
xij
(B) Metoda symulacji jest intuicyjnie atrakcyjna dla statystyk, ponieważ dałaby szacowany rozkład wariancji na oryginalnej skali danych, ale w zależności od odbiorców opisanie tego w „metodach” może być (i) skomplikowane. sekcja i (ii) może wyłączyć recenzenta, który szukał czegoś „bardziej standardowego”
(C) Udawanie, że dane są ciągłe, prawdopodobnie nie jest świetnym pomysłem, chociaż nie zadziała okropnie, jeśli większość prawdopodobieństw nie będzie zbyt bliska 0 lub 1. Ale zrobienie tego prawie na pewno wzbudzi u recenzenta czerwoną flagę więc trzymałbym się z dala.
Teraz w końcu
(2) Jeśli ustalone efekty są bardzo różne na przestrzeni lat, masz rację, sądząc, że może być trudno porównać wariancje efektów losowych na przestrzeni lat, ponieważ są one potencjalnie w różnych skalach (jest to związane z niemożnością identyfikacji wyżej wspomnianego problemu ze skalowaniem).
Ik=1k
α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6
da to co roku inne ICC, ale te same stałe efekty. Może być kuszące, aby użyć losowego nachylenia w czasie, tworząc liniowy predyktor
α+xijβ+η1+η2t
ale nie polecam tego, ponieważ pozwoli to na wzrost liczby skojarzeń , a nie zmniejszenie .