Krótka odpowiedź brzmi: twoja hipoteza jest prawdziwa wtedy i tylko wtedy, gdy istnieje pozytywna korelacja wewnątrz klasy w danych . Empirycznie, większość zestawów danych w klastrach przez większość czasu wykazuje dodatnią korelację wewnątrz klasy, co oznacza, że w praktyce twoje przypuszczenia są zwykle prawdziwe. Ale jeśli korelacja wewnątrz klasy wynosi 0, to dwa wspomniane przypadki są równie pouczające. A jeśli korelacja wewnątrz klasy jest ujemna , to w rzeczywistości mniej pouczające jest dokonywanie mniejszej liczby pomiarów na większej liczbie tematów; wolelibyśmy (jeśli chodzi o zmniejszenie wariancji oszacowania parametru) wykonać wszystkie nasze pomiary na jednym obiekcie.
Statystycznie są dwie perspektywy, z której możemy myśleć o tym: a random-effects (lub mieszany ) modelu , który wspomina w swoim pytaniu, czy marginalny modelu , który kończy się nieco bardziej pouczające tutaj.
Model efektów losowych (mieszanych)
Powiedzmy, że mamy zestaw obiektów, od których każdy wykonaliśmy m pomiarów. Wtedy prostym modelem efektów losowych j- tego pomiaru od i- tego obiektu może być
y i j = β + u i + e i j ,
gdzie β jest stałym punktem przecięcia, u i jest losowym efektem podmiotu (z wariancją σ 2 u ), e i j jest składnikiem błędu poziomu obserwacji (z wariancją σ 2 enmjotja
yI j= β+ uja+ eI j,
βujaσ2)umiI jσ2)mi), a dwa ostatnie losowe terminy są niezależne.
W tym modelu reprezentuje średnią populacji, a przy zbilansowanym zbiorze danych (tj. Takiej samej liczbie pomiarów od każdego pacjenta) naszym najlepszym oszacowaniem jest po prostu średnia próbki. Więc jeśli weźmiemy „więcej informacji” za mniejszą wariancję dla tego oszacowania, to zasadniczo chcemy wiedzieć, w jaki sposób wariancja średniej próbki zależy od n i m . Przy odrobinie algebry możemy wypracować tę
zmienną ( 1βnm
Analizując to wyrażenie, możemy zauważyć, żeilekroć istnieje dowolność wariancji podmiotu(tj.Σ2u>0), zwiększenie liczby podmiotów (n) spowoduje zmniejszenie obu tych terminów, przy jednoczesnym zwiększeniu liczby pomiarów na podmiot (m) zmniejszy jedynie drugi termin. (Aby poznać praktyczną implikację tego przy projektowaniu projektów replikacji dla wielu witryn, zobaczten post na blogu, który napisałem jakiś czas temu).
var ( 1n m∑ja∑jotyI j)= var ( 1n m∑ja∑jotβ+ uja+ eI j)= 1n2)m2)var ( ∑ja∑jotuja+ ∑ja∑jotmiI j)= 1n2)m2)( m2)∑javar ( uja) + ∑ja∑jotvar ( eI j) )= 1n2)m2)( n m2)σ2)u+ n m σ2)mi)=σ2)un+σ2)min m.
σ2)u> 0nm
Teraz chciałeś wiedzieć, co się dzieje, gdy zwiększamy lub zmniejszamy lub n , utrzymując stałą całkowitą liczbę obserwacji. Więc za to uważamy n m być stała, tak że całe wyrażenie wariancji właśnie wygląda
σ 2 umnn m
która jest tak mała, jak to możliwe, gdynjest tak duże, jak to możliwe (maksymalnie don=nm, w którym to przypadkum=1, co oznacza, że bierzemy pojedynczy pomiar od każdego obiektu).
σ2)un+ stała ,
nn = n mm = 1
ρ = σ2)uσ2)u+ σ2)mi
var ( 1n m∑ja∑jotyI j) = σ2)un+ σ2)min m= ( ρn+ 1 - ρn m) (σ2)u+ σ2)mi)
σ2)uρ
Model brzeżny
yI j
yI j= β+ e∗I j,
ujamiI jmi∗I j= uja+ eI jujamiI jmi∗I jdoC = σ2)⎡⎣⎢⎢⎢⎢⎢R0⋮00R⋮0⋯⋯⋱⋯00⋮R⎤⎦⎥⎥⎥⎥⎥, R = ⎡⎣⎢⎢⎢⎢⎢1ρ⋮ρρ1⋮ρ⋯⋯⋱⋯ρρ⋮1⎤⎦⎥⎥⎥⎥⎥
ρmi∗ρρ.)
var ( 1n m∑ja∑jotyI j)= var ( 1n m∑ja∑jotβ+ e∗I j)= 1n2)m2)var ( ∑ja∑jotmi∗I j)= 1n2)m2)( n ( mσ2)+ ( m2)- m ) ρ σ2)) )= σ2)( 1+(m-1)ρ )n m= ( ρn+ 1 - ρn m) σ2),
σ2)mi+ σ2)u= σ2)mi∗I j= uja+ eI j
ρ ≥ - 1 / ( m - 1 )m = 2ρ= - 1m = 3ρ = - 1 / 2
nm
( 1+(m-1)ρ ) × dodatnia stała .
ρ > 0mρ < 0mnmρ = 0mn