Przedział ufności wokół stosunku dwóch proporcji

Mam dwie proporcje (np. Współczynnik klikalności (CTR) na link w układzie kontrolnym i CTR na link w układzie eksperymentalnym) i chcę obliczyć 95% przedział ufności wokół stosunku tych proporcji.

Jak mam to zrobic? Wiem, że mogę użyć metody delta do obliczenia wariancji tego współczynnika, ale nie jestem pewien, co robić poza tym. Czego powinienem użyć jako punktu środkowego przedziału ufności (mój obserwowany stosunek lub oczekiwany współczynnik, który jest inny) i ile standardowych odchyleń wokół tego współczynnika powinienem przyjąć?

Czy powinienem w ogóle używać wariancji metody delta? (Tak naprawdę nie dbam o wariancję, tylko przedział ufności.) Czy powinienem użyć Twierdzenia Fiellera , używając Przypadku 1 (ponieważ robię proporcje, myślę, że spełniam normalny wymóg dystrybucji)? Czy powinienem po prostu obliczyć próbkę bootstrap?

confidence-interval

— raegtin
źródło

Masz fundamentalny problem: większość proporcji ma pozytywną szansę na bycie zerową, stąd stosunek (proporcji niezależnych) ma pozytywną szansę na bycie niezdefiniowanym. Może to stanowić poważne utrudnienie dla metod przybliżonych (takich jak metoda delta) i sugeruje, że normalne przybliżenia powinny być postrzegane bardziej sceptycznie i testowane bardziej rygorystycznie niż zwykle.

— whuber

Joseph L. Fleiss, Bruce Levin, Myunghee Cho Paik: Metody statystyczne dla stawek i proporcji [1] omawiają ryzyko względne, które jest ilorazem dwóch stóp. Nie mam tej książki, więc mogę przeglądać tylko indeks tematyczny i spis treści, ale może ma ją Twoja biblioteka. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428

— cbeleites podpory Monica

Z pewnością najlepszym sposobem byłby percentyl bootstrap?

— Peter Ellis,

Standardowym sposobem osiągnięcia tego w epidemiologii (gdzie stosunek proporcji jest zwykle określany jako współczynnik ryzyka ) jest najpierw transformacja logarytmiczna stosunku, obliczenie przedziału ufności na skali logarytmicznej przy użyciu metody delta i przy założeniu normalnego rozkładu, następnie przekształć z powrotem. Działa to lepiej przy średnich próbkach niż przy użyciu metody delta w nietransformowanej skali, choć nadal będzie źle się zachowywać, jeśli liczba zdarzeń w którejkolwiek grupie będzie bardzo mała, i zawiedzie całkowicie, jeśli nie będzie żadnych zdarzeń w żadnej grupie.

Jeżeli istnieją oraz sukcesy w dwóch grupach spośród sum i , to oczywistym szacunek dla stosunku proporcji jest $x_1$ $x_2$ $n_1$ $n_2$

\hat{θ} = \frac{x_{1} / n_{1}}{x_{2} / n_{2}} .

$\hat\theta = \frac{x_1/n_1}{x_2/n_2}.$

Stosując metodę delta i przy założeniu, że obie grupy są niezależne i sukcesy są binomially rozpowszechnione, można wykazać, że Biorąc pierwiastka kwadratowego daje błędu standardowego . Zakładając, że ma rozkład normalny, a 95% przedział ufności dla

Var (\log \hat{θ}) = 1 / x_{1} - 1 / n_{1} + 1 / x_{2} - 1 / n_{2} .

$\operatorname{Var}(\log \hat\theta) = 1/x_1 - 1/n_1 +1/x_2 - 1/n_2.$

SE (\log \hat{θ})

$\operatorname{SE}(\log \hat\theta)$

\log \hat{θ}

$\log \hat\theta$

\log θ

$\log \theta$ jest

Exponentiating Daje to 95% przedział ufności dla stosunku proporcji

jako

\log \hat{θ} \pm 1.96 SE (\log \hat{θ}) .

$\log \hat\theta \pm 1.96 \operatorname{SE}(\log \hat\theta).$

θ

$\theta$

\hat{θ} \exp [\pm 1.96 SE (\log \hat{θ})] .

$\hat\theta \exp\left[ \pm1.96 \operatorname{SE}(\log\hat\theta)\right].$

— jeden przystanek
źródło

n_{1}

$n_1$

n_{2}

$n_2$

n_{1} p_{1}

$n_1 p_1$

n_{2} p_{2}

$n_2 p_2$

10

$10$

x_{2} = 0

$x_2=0$

x_{i} = n_{i}

$x_i=n_i$

1 / 2

$1/2$

x_{i}

$x_i$

1

$1$

n_{i}

$n_i$

p_{i} n_{i}

$p_i n_i$

4

$4$

n_{i}

$n_i$

@whuber: „podejście podobne do korekty ciągłości” - czy użycie 1/2 jest w szczególności powszechną sztuczką? (W przeciwieństwie do niektórych innych małych pseudokontów.) Sposób, w jaki to sformułowałeś, sprawia, że 1/2 brzmi w jakiś sposób zasadnie =) - prawda?

— raegtin

x_{i}

$x_i$

n_{i}

$n_i$

Dlaczego pierwiastek kwadratowy wariancji błąd standardowy w tym przypadku, a nie odchylenie standardowe?

— Mikko

@onestop Czy to jest zaimplementowane w jakimkolwiek pakiecie R?

— Bogdan Vasilescu