Pokazuje, że 100 pomiarów dla 5 pacjentów dostarcza znacznie mniej informacji niż 5 pomiarów dla 100 pacjentów

Na konferencji usłyszałem następujące oświadczenie:

100 pomiarów dla 5 osób dostarcza znacznie mniej informacji niż 5 pomiarów dla 100 osób.

To trochę oczywiste, że to prawda, ale zastanawiałem się, jak można to udowodnić matematycznie ... Myślę, że można zastosować liniowy model mieszany. Jednak niewiele wiem o matematyce użytej do ich oszacowania (po prostu biegam lmer4po LMM i bmrsGLMM :) Czy możesz mi pokazać przykład, w którym to jest prawda? Wolałbym odpowiedź z pewnymi formułami, a nie z pewnym kodem w R. Zapraszam do przyjęcia prostego ustawienia, takiego jak na przykład liniowy model mieszany z normalnie rozmieszczonymi losowymi punktami przecięcia i nachyleniami.

PS, odpowiedź matematyczna, która nie obejmuje LMM, również byłaby w porządku. Myślałem o LMM, ponieważ wydawały mi się naturalnym narzędziem wyjaśniającym, dlaczego mniej miar z większej liczby przedmiotów jest lepszych niż więcej miar z kilku przedmiotów, ale mogę się mylić.

— DeltaIV
źródło

+1. Wydaje mi się, że najprostszym ustawieniem byłoby rozważenie zadania polegającego na oszacowaniu średniej populacji której każdy badany ma swoją średnią a każdy pomiar tego przedmiotu jest dystrybuowany jako . Jeśli weźmiemy pomiarów z każdej przedmiotów, a co za optymalny sposób zestaw i dany stały produkt .

μ

$\mu$

a \sim N (μ, σ_{a}^{2})

$a \sim \mathcal N(\mu, \sigma_a^2)$

x \sim N (a, σ^{2})

$x \sim \mathcal N(a, \sigma^2)$

n

$n$

m

$m$

n

$n$

m

$m$

n m = N

$nm=N$

— ameba mówi Przywróć Monikę

„Optymalny” w sensie minimalizacji wariancji średniej próbki pozyskanych punktów danych.

N

$N$

— ameba mówi Przywróć Monikę

Tak. Ale w przypadku twojego pytania nie musimy dbać o to, jak oszacować wariancje; twoje pytanie (tj. cytat w twoim pytaniu) dotyczy tylko oszacowania globalnej średniej i wydaje się oczywiste, że najlepszy estymator podaje wielka średnia wszystkich punktów w próbce. Pytanie brzmi zatem: biorąc pod uwagę , , , oraz , jaka jest wariancja ? Jeśli wiadomo, że będzie w stanie zminimalizować względem danej w ograniczenia.

μ

$\mu$

\bar{x}

$\bar x$

N = n m

$N=nm$

μ

$\mu$

σ^{2}

$\sigma^2$

σ_{a}^{2}

$\sigma^2_a$

n

$n$

m

$m$

\bar{x}

$\bar x$

n

$n$

n m = N

$nm=N$

— ameba mówi Przywróć Monikę

Nie wiem, jak to wywnioskować, ale zgadzam się, że wydaje się to oczywiste: aby oszacować wariancję błędu, najlepiej byłoby mieć wszystkie pomiary

od jednego pacjenta; i aby oszacować wariancję osobnika (prawdopodobnie?) najlepiej byłoby mieć

różnych osobników z 1 pomiarem każdy. Nie jest to jednak tak jasne co do średniej, ale moja intuicja podpowiada mi, że najlepiej byłoby mieć

badanych z 1 pomiarem. Zastanawiam się, czy to prawda ...

N

$N$

N

$N$

N

$N$

— ameba mówi Przywróć Monikę

Może coś takiego: wariancja średnich próbek na podmiot powinna wynosić

, gdzie pierwszy składnik to wariancja podmiotu, a drugi to wariancja oceny średniej każdego podmiotu. Wówczas wariancja średniej dla badanych (tj. Średnia) będzie wynosić

σ_{a}^{2} + σ^{2} / n

$\sigma^2_a + \sigma^2/n$

który jest zminimalizowany, gdy

(σ_{a}^{2} + σ^{2} / n) / m = σ_{a}^{2} / m + σ^{2} / (n m) = σ_{a}^{2} / m + σ^{2} / N = σ_{a}^{2} / m + c o n s t,

$(\sigma^2_a + \sigma^2/n)/m = \sigma^2_a/m + \sigma^2/(nm) = \sigma^2_a/m + \sigma^2/N = \sigma^2_a/m + \mathrm{const},$

m = N

$m=N$

— ameba mówi Przywróć Monikę

Krótka odpowiedź brzmi: twoja hipoteza jest prawdziwa wtedy i tylko wtedy, gdy istnieje pozytywna korelacja wewnątrz klasy w danych . Empirycznie, większość zestawów danych w klastrach przez większość czasu wykazuje dodatnią korelację wewnątrz klasy, co oznacza, że w praktyce twoje przypuszczenia są zwykle prawdziwe. Ale jeśli korelacja wewnątrz klasy wynosi 0, to dwa wspomniane przypadki są równie pouczające. A jeśli korelacja wewnątrz klasy jest ujemna , to w rzeczywistości mniej pouczające jest dokonywanie mniejszej liczby pomiarów na większej liczbie tematów; wolelibyśmy (jeśli chodzi o zmniejszenie wariancji oszacowania parametru) wykonać wszystkie nasze pomiary na jednym obiekcie.

Statystycznie są dwie perspektywy, z której możemy myśleć o tym: a random-effects (lub mieszany ) modelu , który wspomina w swoim pytaniu, czy marginalny modelu , który kończy się nieco bardziej pouczające tutaj.

Model efektów losowych (mieszanych)

Powiedzmy, że mamy zestaw obiektów, od których każdy wykonaliśmy pomiarów. Wtedy prostym modelem efektów losowych tego pomiaru od tego obiektu może być gdzie jest stałym punktem przecięcia, jest losowym efektem podmiotu (z wariancją ), jest składnikiem błędu poziomu obserwacji (z wariancją $n$ $m$ $j$ $i$

y_{i j} = β + u_{i} + e_{i j},

$y_{ij} = \beta + u_i + e_{ij},$

β

$\beta$

u_{i}

$u_i$

σ_{u}^{2}

$\sigma^2_u$

e_{i j}

$e_{ij}$

σ_{e}^{2}

$\sigma^2_e$ ), a dwa ostatnie losowe terminy są niezależne.

W tym modelu reprezentuje średnią populacji, a przy zbilansowanym zbiorze danych (tj. Takiej samej liczbie pomiarów od każdego pacjenta) naszym najlepszym oszacowaniem jest po prostu średnia próbki. Więc jeśli weźmiemy „więcej informacji” za mniejszą wariancję dla tego oszacowania, to zasadniczo chcemy wiedzieć, w jaki sposób wariancja średniej próbki zależy od i . Przy odrobinie algebry możemy wypracować tę $\beta$ $n$ $m$ Analizując to wyrażenie, możemy zauważyć, żeilekroć istnieje dowolność wariancji podmiotu(tj.), zwiększenie liczby podmiotów () spowoduje zmniejszenie obu tych terminów, przy jednoczesnym zwiększeniu liczby pomiarów na podmiot () zmniejszy jedynie drugi termin. (Aby poznać praktyczną implikację tego przy projektowaniu projektów replikacji dla wielu witryn, zobaczten post na blogu, który napisałem jakiś czas temu).

\begin{aligned} var (\frac{1}{n m} \sum_{ja} \sum_{jot} y_{ja jot}) & = var (\frac{1}{n m} \sum_{ja} \sum_{jot} β + u_{ja} + {mi}_{ja jot}) \\ = \frac{1}{n^{2)} m^{2)}} var (\sum_{ja} \sum_{jot} u_{ja} + \sum_{ja} \sum_{jot} {mi}_{ja jot}) \\ = \frac{1}{n^{2)} m^{2)}} (m^{2)} \sum_{ja} var (u_{ja}) + \sum_{ja} \sum_{jot} var ({mi}_{ja jot})) \\ = \frac{1}{n^{2)} m^{2)}} (n m^{2)} σ_{u}^{2)} + n m σ_{mi}^{2)}) \\ = \frac{σ_{u}^{2)}}{n} + \frac{σ_{mi}^{2)}}{n m} . \end{aligned}

$\begin{aligned} \text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) &= \text{var}(\frac{1}{nm}\sum_i\sum_j\beta + u_i + e_{ij}) \\ &= \frac{1}{n^2m^2}\text{var}(\sum_i\sum_ju_i + \sum_i\sum_je_{ij}) \\ &= \frac{1}{n^2m^2}\Big(m^2\sum_i\text{var}(u_i) + \sum_i\sum_j\text{var}(e_{ij})\Big) \\ &= \frac{1}{n^2m^2}(nm^2\sigma^2_u + nm\sigma^2_e) \\ &= \frac{\sigma^2_u}{n} + \frac{\sigma^2_e}{nm}. \end{aligned}$

σ_{u}^{2} > 0

$\sigma^2_u>0$

n

$n$

m

$m$

Teraz chciałeś wiedzieć, co się dzieje, gdy zwiększamy lub zmniejszamy lub , utrzymując stałą całkowitą liczbę obserwacji. Więc za to uważamy być stała, tak że całe wyrażenie wariancji właśnie wygląda $m$ $n$ $nm$ która jest tak mała, jak to możliwe, gdyjest tak duże, jak to możliwe (maksymalnie do, w którym to przypadku, co oznacza, że bierzemy pojedynczy pomiar od każdego obiektu).

\frac{σ_{u}^{2)}}{n} + stały,

$\frac{\sigma^2_u}{n} + \text{constant},$

n

$n$

n = n m

$n=nm$

m = 1

$m=1$

ρ = \frac{σ_{u}^{2)}}{σ_{u}^{2)} + σ_{mi}^{2)}}

$\rho = \frac{\sigma^2_u}{\sigma^2_u + \sigma^2_e}$

var (\frac{1}{n m} \sum_{ja} \sum_{jot} y_{ja jot}) = \frac{σ_{u}^{2)}}{n} + \frac{σ_{mi}^{2)}}{n m} = (\frac{ρ}{n} + \frac{1 - ρ}{n m}) (σ_{u}^{2)} + σ_{mi}^{2)})

$\text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) = \frac{\sigma^2_u}{n} + \frac{\sigma^2_e}{nm} = \Big(\frac{\rho}{n} + \frac{1-\rho}{nm}\Big)(\sigma^2_u+\sigma^2_e)$

$\sigma^2_u$ $\rho$

Model brzeżny

$y_{ij}$

y_{ja jot} = β + {mi}_{ja jot}^{*},

$y_{ij} = \beta + e^*_{ij},$

u_{i}

$u_i$

e_{i j}

$e_{ij}$

e_{i j}^{*} = u_{i} + e_{i j}

$e^*_{ij} = u_i + e_{ij}$

u_{i}

$u_i$

e_{i j}

$e_{ij}$

e_{i j}^{*}

$e^*_{ij}$

C

$\textbf{C}$

do = σ^{2)} [\begin{matrix} R & 0 & \dots & 0 \\ 0 & R & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & R \end{matrix}], R = [\begin{matrix} 1 & ρ & \dots & ρ \\ ρ & 1 & \dots & ρ \\ ⋮ & ⋮ & ⋱ & ⋮ \\ ρ & ρ & \dots & 1 \end{matrix}]

$\textbf{C}= \sigma^2\begin{bmatrix} \textbf{R} & 0& \cdots & 0\\ 0& \textbf{R} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0& 0& \cdots &\textbf{R}\\ \end{bmatrix}, \textbf{R}= \begin{bmatrix} 1 & \rho & \cdots & \rho \\ \rho & 1 & \cdots & \rho \\ \vdots & \vdots & \ddots & \vdots \\ \rho & \rho & \cdots &1\\ \end{bmatrix}$

ρ

$\rho$

e^{*}

$e^*$

ρ

$\rho$

ρ

$\rho$ .)

\begin{aligned} var (\frac{1}{n m} \sum_{ja} \sum_{jot} y_{ja jot}) & = var (\frac{1}{n m} \sum_{ja} \sum_{jot} β + {mi}_{ja jot}^{*}) \\ = \frac{1}{n^{2)} m^{2)}} var (\sum_{ja} \sum_{jot} {mi}_{ja jot}^{*}) \\ = \frac{1}{n^{2)} m^{2)}} (n (m σ^{2)} + (m^{2)} - m) ρ σ^{2)})) \\ = \frac{σ^{2)} (1 + (m - 1) ρ)}{n m} \\ = (\frac{ρ}{n} + \frac{1 - ρ}{n m}) σ^{2)}, \end{aligned}

$\begin{aligned} \text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) &= \text{var}(\frac{1}{nm}\sum_i\sum_j\beta + e^*_{ij}) \\ &= \frac{1}{n^2m^2}\text{var}(\sum_i\sum_je^*_{ij}) \\ &= \frac{1}{n^2m^2}\Big(n\big(m\sigma^2 + (m^2-m)\rho\sigma^2\big)\Big) \\ &= \frac{\sigma^2\big(1+(m-1)\rho\big)}{nm} \\ &= \Big(\frac{\rho}{n}+\frac{1-\rho}{nm}\Big)\sigma^2, \end{aligned}$

σ_{e}^{2} + σ_{u}^{2} = σ^{2}

$\sigma^2_e+\sigma^2_u=\sigma^2$

e_{i j}^{*} = u_{i} + e_{i j}

$e^*_{ij} = u_i + e_{ij}$

$\rho \ge -1/(m-1)$ $m=2$ $\rho=-1$ $m=3$ $\rho=-1/2$

$nm$

(1 + (m - 1) ρ) \times dodatnia stała .

$\big(1+(m-1)\rho\big) \times \text{positive constant}.$

ρ > 0

$\rho>0$

m

$m$

ρ < 0

$\rho<0$

m

$m$

n m

$nm$

ρ = 0

$\rho=0$

m

$m$

n

$n$

— Jake Westfall
źródło

ρ < 0

$\rho<0$

n m

$nm$

σ_{u}

$\sigma_u$

β

$\beta$

m

$m$

ρ

$\rho$

σ_{u}^{2}

$\sigma^2_u$

Σ

$\Sigma$

σ_{u}^{2} + σ_{e}^{2} / m_{i}

$\sigma^2_u + \sigma^2_e/m_i$

m

$m$

ρ

$\rho$

m

$m$