Jak obliczyć przedział ufności średniej średnich?

19

Wyobraź sobie, że powtarzasz eksperyment trzy razy. W każdym eksperymencie zbierasz trzykrotnie pomiary. Trzy powtórzenia wydają się być dość blisko siebie, w porównaniu do różnic między trzema średnimi eksperymentalnymi. Obliczenie wielkiego środka jest dość łatwe. Ale jak obliczyć przedział ufności dla wielkiej średniej?

Przykładowe dane:

Eksperyment 1: 34, 41, 39

Eksperyment 2: 45, 51, 52

Eksperyment 3: 29, 31, 35

Załóżmy, że powtórzone wartości w eksperymencie są zgodne z rozkładem Gaussa, podobnie jak średnie wartości z każdego eksperymentu. SD wariancji w eksperymencie jest mniejsza niż SD wśród średnich eksperymentalnych. Załóżmy również, że w każdym eksperymencie nie ma kolejności trzech wartości. Kolejność trzech wartości w każdym rzędzie od lewej do prawej jest całkowicie dowolna.

Prostym podejściem jest najpierw obliczyć średnią z każdego eksperymentu: 38,0, 49,3 i 31,7, a następnie obliczyć średnią z 95% przedziału ufności tych trzech wartości. Przy użyciu tej metody średnia wynosi 39,7, a przedział ufności 95% wynosi od 17,4 do 61,9.

Problem z tym podejściem polega na tym, że całkowicie ignoruje zmienność pomiędzy trzema powtórzeniami. Zastanawiam się, czy nie ma dobrego sposobu na uwzględnienie tej odmiany.

confidence-interval multilevel-analysis

— Harvey Motulsky
źródło

1

Nie odpowiedź, tylko intuicyjna obserwacja. CI dla łącznej sumy danych (wszystkie dziewięć obs) wynosi

, CI oparty tylko na średnich to

. Nie jestem pewien, co robi twój CI (literówka? 17 nie 27, a 51 nie 61?), Dostaję

za standardowe odchylenie trzech średnich i

jako

kwantyla T dist z 2 df. Myślę, że CI, którego szukasz, leżałoby gdzieś pomiędzy tymi dwoma - ponieważ masz częściowe połączenie. Można również pomyśleć w kategoriach wzoru wariancji

(39.7 \pm 2.13)

$(39.7 \pm 2.13)$

(39.7 \pm 12.83)

$(39.7\pm 12.83)$

2.98

$2.98$

4.30

$4.30$

0.975

$0.975$

, każdy CI wykorzystuje połowę wzoru

V (Y) = E [V (Y | Y_{g})] + V [E (Y | Y_{g})]

$V(Y)=E[V(Y|Y_g)]+V[E(Y|Y_g)]$

— prawdopodobieństwo jest

2

@probabilityislogic: SEM trzech średnich eksperymentów wynosi 5,168 (a nie 2,98, jak pisałeś), a przedział ufności, który podałem w pierwotnym poście (17.4 do 61.9) jest poprawny. SEM jest obliczany z SD (8,95) poprzez podzielenie przez pierwiastek kwadratowy z n (pierwiastek kwadratowy z 3). Zamiast tego dzielisz się przez n (3).

— Harvey Motulsky

mój błąd, powinien również zastąpić

przez

w połączonym przedziale (ten sam błąd tam)

2.13

$2.13$

6.40

$6.40$

— probabilityislogic

czy poniższy link odpowiada na to? talkstats.com/showthread.php/11554-mean-of-means

@TST, Wydaje się, że jest tylko link do Wikipedii na temat wariancji w puli . Możesz rozwinąć temat?

— chl

6

Istnieje naturalny dokładny przedział ufności dla babci w zrównoważonym losowym jednokierunkowym modelu ANOVA Rzeczywiście łatwo jest sprawdzić, czy rozkład obserwowanych średnich wynosi przy

(y_{ja jot} ∣ μ_{ja}) \sim_{iid} N. (μ_{ja}, σ_{w}^{2)}), jot = 1, \dots, jot, μ_{ja} \sim_{iid} N. (μ, σ_{b}^{2)}), ja = 1, \dots, ja .

$(y_{ij} \mid \mu_i) \sim_{\text{iid}} {\cal N}(\mu_i, \sigma^2_w), \quad j=1,\ldots,J, \qquad \mu_i \sim_{\text{iid}} {\cal N}(\mu, \sigma^2_b), \quad i=1,\ldots,I.$

{\bar{y}}_{i ∙}

$\bar{y}_{i\bullet}$

{\bar{y}}_{i ∙} \sim_{iid} N (μ, τ^{2})

$\bar{y}_{i\bullet} \sim_{\text{iid}} {\cal N}(\mu, \tau^2)$

, i dobrze wiadomo, że między sumą kwadratów

ma rozkład

i jest niezależny od ogólnej zaobserwowanej średniej

τ^{2} = σ_{b}^{2} + \frac{σ_{w}^{2}}{J}

$\tau^2=\sigma^2_b+\frac{\sigma^2_w}{J}$

S S_{b}

$SS_b$

S. {S.}_{b} \sim jot τ^{2)} χ_{ja - 1}^{2)}

$SS_b \sim J\tau^2\chi^2_{I-1}$

. Zatem

{\bar{y}}_{∙ ∙} \sim N. (μ, \frac{τ^{2)}}{ja})

$\bar y_{\bullet\bullet} \sim {\cal N}(\mu, \frac{\tau^2}{I})$

marozkład

Studentaz

stopniami swobody, z którego łatwo jest uzyskać dokładny przedział ufności około

.

\frac{{\bar{y}}_{∙ ∙} - μ}{\frac{1}{\sqrt{ja}} \sqrt{\frac{S. {S.}_{b}}{jot (ja - 1)}}}

$\frac{\bar y_{\bullet\bullet} - \mu}{\frac{1}{\sqrt{I}}\sqrt{\frac{SS_b}{J(I-1)}}}$

t

$t$

I - 1

$I-1$

μ

$\mu$

Zauważ, że ten przedział ufności jest niczym innym, jak klasycznym przedziałem dla średniej Gaussa, biorąc pod uwagę jedynie grupę oznacza jako obserwacje $\bar{y}_{i\bullet}$ . Zatem proste podejście, o którym wspominasz:

Prostym podejściem jest najpierw obliczyć średnią z każdego eksperymentu: 38,0, 49,3 i 31,7, a następnie obliczyć średnią z 95% przedziału ufności tych trzech wartości. Przy użyciu tej metody średnia wynosi 39,7, a przedział ufności 95% wynosi od 17,4 do 61,9.

jest w porządku. Twoja intuicja dotycząca ignorowanej odmiany:

Problem z tym podejściem polega na tym, że całkowicie ignoruje zmienność pomiędzy trzema powtórzeniami. Zastanawiam się, czy nie ma dobrego sposobu na uwzględnienie tej odmiany.

jest źle. Wspominam również o poprawności takiego uproszczenia w /stats//a/72578/8402

Aktualizacja 12.04.2014

Niektóre szczegóły są teraz zapisane na moim blogu: Zmniejszenie modelu, aby uzyskać przedziały ufności .

— Stéphane Laurent
źródło

Czy jest jakaś pomoc we wdrażaniu tego rozwiązania w Pythonie? stackoverflow.com/questions/45682437/…

— blehman

7

Jest to kwestia oceny w ramach liniowego modelu efektów mieszanych. Problem polega na tym, że wariancja średniej średniej jest ważoną sumą dwóch składników wariancji, które należy osobno oszacować (za pomocą ANOVA danych). Szacunki mają różne stopnie swobody. Dlatego chociaż można próbować skonstruować przedział ufności dla średniej za pomocą zwykłych wzorów małej próby (Student t), jest mało prawdopodobne, aby osiągnąć jego nominalny zasięg, ponieważ odchylenia od średniej nie będą dokładnie zgodne z rozkładem t Studenta.

Niedawny (2010) artykuł Evy Jarosova, Estimation with the Linear Mixed Effects Model , omawia ten problem. (Od 2015 r. Wydaje się, że nie jest już dostępny w Internecie.) W kontekście „małego” zestawu danych (nawet trzykrotnie większego niż ten) używa symulacji do oceny dwóch przybliżonych obliczeń CI (studnia - znane przybliżenie Satterthwaite i „metoda Kenwarda-Rogera”). Jej wnioski obejmują

Badanie symulacyjne ujawniło, że jakość szacowania parametrów kowariancji, aw konsekwencji dostosowanie przedziałów ufności w małych próbkach, może być dość słaba ... Złe oszacowanie może wpłynąć nie tylko na prawdziwy poziom ufności w konwencjonalnych przedziałach, ale może również uniemożliwić dostosowanie. Oczywiste jest, że nawet w przypadku danych zrównoważonych trzy rodzaje przedziałów [konwencjonalny, Satterthwaite, KR] mogą się znacznie różnić. W przypadku zauważenia uderzającej różnicy między interwałem konwencjonalnym a skorygowanym należy sprawdzić standardowe błędy szacunków parametrów kowariancji. Z drugiej strony, gdy różnice między [trzema] rodzajami przedziałów są niewielkie, dostosowanie wydaje się niepotrzebne.

Krótko mówiąc, wydaje się , że to dobre podejście

Oblicz konwencjonalny CI, używając oszacowań składników wariancji i udając, że obowiązuje rozkład t.
Oblicz także co najmniej jeden z dostosowanych CI.
Jeśli obliczenia są „zamknięte”, zaakceptuj konwencjonalne CI. W przeciwnym razie zgłoś, że nie ma wystarczających danych, aby stworzyć wiarygodny CI.

— Whuber
źródło

Korzystanie ze składników wariancji prowadzi do tego samego przedziału ufności, jaki obliczyłem w oryginalnym poście. Tabela ANOVA ma SS między kolumnami 480,7 z 2 df, co oznacza, że MS wynosi 240,3. SD to sqrt (MSbetween / n) = sqrt (240,3 / 3) = 8,95, co prowadzi do tego samego CI, który pierwotnie opublikowałem (17,4 do 61,9). Bardzo trudno mi było śledzić cytowany artykuł Jarasova i nie jestem do końca pewien, czy ma on znaczenie w tym przypadku (wydaje się, że dotyczy on projektów z powtarzanymi pomiarami). ???

— Harvey Motulsky

@Harvey Twój opis dla mnie brzmi jak powtarzane kroki! Uważam, że gazeta Jarasova jest na miejscu.

— whuber

1

Myślę o typowej sytuacji w laboratoriach, w których trzy egzemplarze to po prostu trzy różne probówki (lub studzienki). Kolejność trzech przedstawionych w tabeli jest dowolna. Nie ma związku ani korelacji między powtórzeniem nr 2 w pierwszym eksperymencie z powtórzeniem nr 2 w drugim lub trzecim doświadczeniu. Każdy eksperyment ma tylko trzy pomiary. Więc nie powtarzane takty. Dobrze?

— Harvey Motulsky

whuber, tutaj jest dokładna dystrybucja Studentów. Zobacz moją odpowiedź.

— Stéphane Laurent,

@ Whuber link do artykułu Evy Jarasova jest martwy, a wyszukiwanie w Google nic nie dało. Czy możesz poprawić odniesienie?

— Placidia

0

Nie możesz mieć jednego przedziału ufności, który rozwiązuje oba problemy. Musisz wybrać jeden. Możesz albo wyprowadzić jeden ze średniego błędu kwadratowego wariancji w obrębie wariantu eksperymentu, który pozwala ci powiedzieć coś o tym, jak dokładnie możesz oszacować wartości w eksperymencie, albo możesz to zrobić pomiędzy i będzie to dotyczyło między eksperymentami. Gdybym właśnie to zrobił, chciałbym raczej narysować go wokół 0, a nie wokół wielkiej średniej, ponieważ nie mówi ona nic o rzeczywistej wartości średniej, tylko o efekcie (w tym przypadku 0). Lub możesz po prostu wykreślić oba i opisać, co robią.

Masz kontrolę nad tym. W tym przypadku jest to jak obliczenie terminu błędu w ANOVA w celu uzyskania MSE do pracy, a stamtąd SE dla CI jest po prostu sqrt (MSE / n) (n = 3 w tym przypadku).

— Jan
źródło

W rzeczywistości możesz mieć wiarygodny przedział dla każdej średniej i dla średniej średniej. Wystarczy użyć wielopoziomowego modelu Bayesian. Czasami tego rodzaju oszacowanie nazywa się częściowym łączeniem pul. Problemem jest, jak sądzę, mała próbka.

— Manoel Galdino

Możesz mieć przedział ufności dla każdego średniego i wielkiego środka również ... ale są to różne rzeczy ... tak jak wiarygodne przedziały. Zinterpretowałem to pytanie jako dotyczące CI w odniesieniu do wariancji wewnątrz badania i pomiędzy jako jako agregację. Wszystko to wciąż pozostawia różne znaczenia CI. (Nie wziąłem też dosłownie n)

— John

1

Ponadto, to, co miałem na myśli, że nie mogę, nie jest tak naprawdę „nie mogę”. Możesz jakoś wymyślić jedno równanie, które oblicza jeden przedział ufności dla wszystkiego. To po prostu nie oznaczałoby nic sensownego. Właśnie dlatego chciałem.

— John

Kilka minut po tym, jak napisałem swój komentarz, zdałem sobie sprawę, że nie powinniśmy brać litery n dosłownie. Ale było za późno, aby go edytować =).

— Manoel Galdino

0

Myślę, że CI dla średniej średniej jest zbyt szeroki [17,62], nawet dla zakresu oryginalnych danych.

Te eksperymenty są BARDZO powszechne w chemii. Na przykład przy certyfikacji materiałów referencyjnych musisz losowo zbierać niektóre butelki z całej partii i przeprowadzać analizę replikacji na każdej butelce. Jak obliczyć wartość odniesienia i jej niepewność? Jest na to wiele sposobów, ale najbardziej wyrafinowane (i poprawne, jak sądzę) jest stosowanie metaanalizy lub ML (Dersimonian-Laird, Vangel-Rukhin itp.)

Co z szacunkami bootstrap?

— wymazać
źródło

1

Symulacja (10 000 prób z normalnymi rozkładami głównych efektów i błędów) wskazuje, że [21, 58] jest symetrycznym dwustronnym 95% CI dla średniej.

— Whuber

whuber: Byłbym ciekawy, jak wykonałeś te symulacje. Ładowanie z oryginalnych danych? Czy naprawdę symulacje? Jeśli to drugie, jakiej wartości średniej i SD użyłeś do symulacji danych?

— Harvey Motulsky