Jak porównać średnią z dwóch próbek, których dane pasują do rozkładów wykładniczych

Mam dwie próbki danych, próbkę wyjściową i próbkę do leczenia.

Hipoteza jest taka, że próbka do leczenia ma wyższą średnią niż próbka wyjściowa.

Obie próbki mają kształt wykładniczy. Ponieważ dane są dość duże, mam tylko średnią i liczbę elementów dla każdej próbki w momencie, w którym będę przeprowadzał test.

Jak mogę przetestować tę hipotezę? Zgaduję, że jest to bardzo łatwe i natknąłem się na kilka odniesień do korzystania z testu F, ale nie jestem pewien, jak mapują parametry.

hypothesis-testing statistical-significance exponential

— Jonathan Dobbie
źródło

Dlaczego nie masz danych? Jeśli próbki są naprawdę duże, testy nieparametryczne powinny działać świetnie, ale wygląda na to, że próbujesz uruchomić test ze statystyk podsumowujących. Czy to prawda?

— Mimshot,

Czy wartości wyjściowe i wartości terapeutyczne dla tego samego zestawu pacjentów czy te dwie grupy są niezależne?

— Michael M

@Mimshot, dane są przesyłane strumieniowo, ale masz rację, że próbuję uruchomić test ze statystyk podsumowujących. Działa całkiem dobrze z testem Z dla normalnych danych

— Jonathan Dobbie

W tych okolicznościach przybliżony test Z może być najlepszym, co możesz zrobić. Jednak bardziej zależałoby mi na tym, jak duży jest prawdziwy efekt leczenia, a nie na znaczeniu statystycznym. Pamiętaj, że przy wystarczająco dużych próbkach każdy mały prawdziwy efekt doprowadzi do małej wartości p.

— Michael M

@ stycznia - chociaż, jeśli jego próbki są wystarczająco duże, według CLT będą bardzo zbliżone do normalnie rozłożonych. Zgodnie z hipotezą zerową wariancje byłyby takie same (jak są średnie), więc przy wystarczająco dużej próbce test t powinien działać dobrze; nie będzie tak dobrze, jak możesz zrobić ze wszystkimi danymi, ale nadal będzie OK. byłoby całkiem niezłe.

n_{1} = n_{2} = 100

$n_1 = n_2 = 100$

— jbowman

Odpowiedzi:

Możesz przetestować równość średnich parametrów w porównaniu z alternatywą, że średnie parametry są nierówne za pomocą testu współczynnika wiarygodności (test LR). (Jeśli jednak średnie parametry się różnią, a rozkład jest wykładniczy, oznacza to przesunięcie skali, a nie przesunięcie lokalizacji).

W przypadku testu jednostronnego (ale tylko asymptotycznie w przypadku dwustronnym) uważam, że test LR okazuje się być równoważny z poniższym (aby pokazać, że w rzeczywistości jest on taki sam jak test LR dla jednostronnego gdyby trzeba było pokazać, że statystyka LR była monotoniczna w ): $\bar x/\bar y$

Załóżmy, że sparametryzujemy tą obserwację w pierwszym wykładniczym jako posiadającą pdf a tą obserwację w drugiej próbce jako posiadającą pdf (ponad oczywistymi domenami dla obserwacji i parametrów). (Dla jasności pracujemy tutaj w formie średniej, a nie w formie stawki; nie wpłynie to na wynik obliczeń). $i$ $1/\mu_x \exp(-x_i/\mu_x)$ $j$ $1/\mu_y \exp(-y_j/\mu_y)$

Ponieważ rozkład jest szczególnym przypadkiem gamma, , rozkład sumy , jest dystrybuowany ; podobnie, że dla sumy , jest . $X_i$ $\Gamma(1,\mu_x)$ $X$ $S_x$ $\Gamma(n_x,\mu_x)$ $Y$ $S_y$ $\Gamma(n_y,\mu_y)$

Ze względu na związek między rozkładami gamma a rozkładami chi-kwadrat okazuje się, że rozkład jest rozkładany . Stosunek dwóch kwadratów chi do ich stopni swobody wynosi F. Stąd stosunek, . $2/\mu_x S_x$ $\chi^2_{2n_x}$ $\frac{\mu_y}{\mu_x}\frac{S_x/n_x}{S_y/n_y} \sim F_{2n_x,2n_y}$

Zgodnie z hipotezą zerową równości średnich, , a pod dwustronną alternatywą wartości mogą być mniejsze lub większe niż wartość z wartości zerowej dystrybucja, więc potrzebujesz dwustronnego testu. $\bar x/\bar y \sim F_{2n_x,2n_y}$

Symulacja, aby sprawdzić, czy nie popełniliśmy prostego błędu w algebrze:

Tutaj przeprowadziłem symulację 1000 próbek o wielkości 30 dla i 20 dla z rozkładu wykładniczego o tej samej średniej i obliczyłem powyższą statystykę średnich średnich. $X$ $Y$

Poniżej znajduje się histogram rozkładu wynikowego, a także krzywa pokazująca rozkład obliczony pod wartością zerową: $F$

symulowany przykładowy rozkład statystyki współczynnika pod wartością zerową

Przykład z omówieniem obliczania dwustronnych wartości p :

Aby zilustrować obliczenia, oto dwie małe próbki z rozkładów wykładniczych. Próbka X ma 14 obserwacji z populacji ze średnią 10, próbka Y ma 17 obserwacji z populacji ze średnią 15:

x: 12.173  3.148 33.873  0.160  3.054 11.579 13.491  7.048 48.836 
   16.478  3.323  3.520  7.113  5.358

y:  7.635  1.508 29.987 13.636  8.709 13.132 12.141  5.280 23.447 
   18.687 13.055 47.747  0.334  7.745 26.287 34.390  9.596

Średnie próbki wynoszą odpowiednio 12,082 i 16,077. Stosunek średnich wynosi 0,7515

Obszar po lewej stronie jest prosty, ponieważ znajduje się w dolnym ogonie (obliczenia w R):

 > pf(r,28,34) 
 [1] 0.2210767

Potrzebujemy prawdopodobieństwa dla drugiego ogona. Gdyby rozkład był symetryczny odwrotnie, byłoby to proste.

Powszechną konwencją ze stosunkiem wariancji testu F (który jest podobnie dwustronny) jest po prostu podwojenie jednostronnej wartości p (faktycznie to, co dzieje się tutaj ; tutaj wydaje się, że tak się dzieje na przykład w R ); w tym przypadku daje wartość p 0,44.

Jeśli jednak zrobisz to z formalną regułą odrzucenia, umieszczając obszar w każdym ogonie, otrzymasz wartości krytyczne, jak opisano tutaj . Wartość p jest wówczas największą , która prowadziłaby do odrzucenia, co jest równoważne dodaniu jednostronnej wartości p powyżej do jednostronnej wartości p w drugim ogonie dla zamienionych stopni swobody. W powyższym przykładzie daje to wartość p 0,43. $\alpha/2$ $\alpha$

— Glen_b - Przywróć Monikę
źródło

Zgaduję, że to tylko ja jestem gruby, ale skąd pochodzi 0,7515?

— Jonathan Dobbie

r = średnia (x) / średnia (y) = 0,7515 - to znaczy „Stosunek średnich”

— Glen_b

Okej, wspaniale. Mam 0,67, ale prawdopodobnie wynika to z błędu wprowadzania danych.

— Jonathan Dobbie

Wprowadziłem rozróżnienie między średnimi populacji a wynikową próbką oznacza jaśniej

— Glen_b -Reinstate Monica

(+1) Ale chociaż jest to styczne, nie rozumiem ostatniego akapitu. W jaki sposób podwojenie jednostronnej wartości p nie jest równoważne znalezieniu największego , z obszarem w każdym ogonie, co doprowadziłoby do odrzucenia? Po co w ogóle zmieniać stopnie swobody?

α

$\alpha$

\frac{α}{2}

$\frac{\alpha}{2}$

— Scortchi - Przywróć Monikę

Jako dodatek do odpowiedzi @ Glen_b współczynnik prawdopodobieństwa wynosi które można zmienić na gdzie . Przy występuje jedno minimum , więc test F jest rzeczywiście testem prawdopodobieństwa w stosunku do jednostronnych alternatyw dla hipotezy zerowej o identycznych rozkładach.

n_{x} \log \frac{n_{x}}{\sum x_{i}} + n_{y} \log \frac{n_{y}}{\sum y_{j}} - (n_{x} + n_{y}) \log \frac{n_{x} + n_{y}}{\sum x_{i} + \sum y_{j}}

$n_x\log \frac{n_x}{\sum x_i} +n_y \log \frac{n_y}{\sum y_j} -(n_x+n_y)\log\frac{n_x+n_y}{\sum x_i +\sum y_j}$

n_{x} \log (\frac{n_{x}}{n_{y}} + \frac{1}{r}) + n_{y} \log (\frac{n_{y}}{n_{x}} + r) + n_{x} \log \frac{n_{y}}{n_{x} + n_{y}} + n_{y} \log \frac{n_{x}}{n_{x} + n_{y}}

$n_x\log\left(\frac{n_x}{n_y} + \frac{1}{r}\right) + n_y\log\left(\frac{n_y}{n_x}+r\right) + n_x\log\frac{n_y}{n_x+n_y} + n_y\log \frac{n_x}{n_x+n_y}$

r = \frac{\bar{x}}{\bar{y}}

$r=\frac{\bar{x}}{\bar{y}}$

r = 1

$r=1$

Aby wykonać test współczynnika wiarygodności właściwy dla dwustronnej alternatywy, nadal możesz użyć rozkładu F. po prostu musisz znaleźć drugą wartość współczynnika próbki dla którego iloraz prawdopodobieństwa jest równy obserwowanemu współczynnikowi , a następnie . W tym przykładzie , & , co daje ogólną wartość p wynoszącą (raczej zbliżoną do tej uzyskanej przez przybliżenie chi-kwadrat do rozkład dwukrotności ilorazu wiarygodności, ). $r_\mathrm{ELR}$ $r_\mathrm{obs}$ $\Pr(R>r_\mathrm{ELR})$ $r_\mathrm{ELR}=1.3272$ $\Pr(R>r_\mathrm{ELR})=0.2142$ $0.4352$ $0.4315$

Ale podwojenie jednostronnej wartości p jest być może najczęstszym sposobem uzyskania dwustronnej wartości p: jest to równoważne ze znalezieniem wartości stosunku próbka oznacza dla którego prawdopodobieństwo ogona jest równe , a następnie znalezieniu . Wyjaśnione w ten sposób może wydawać się, że stawia wózek przed koniem, pozwalając prawdopodobieństwu ogona określić skrajność statystyki testowej, ale można to uzasadnić jako dwa testy jednostronne (każdy LRT) z wieloma porównaniami korekta - i ludzie zwykle są zainteresowani twierdzeniem, że lub że $r_\mathrm{ETP}$ $\Pr(R>r_\mathrm{ETP})$ $\Pr(R<r_\mathrm{obs})$ $\Pr(R>r_\mathrm{ETP})$ $\mu_x > \mu_y$ $\mu_x < \mu_y$ $\mu_x > \mu_y$ lub . Jest to również mniej kłopotliwe, a nawet w przypadku dość małych próbek, daje prawie taką samą odpowiedź, jak właściwy dwustronny LRT. $\mu_x < \mu_y$

Poniższy kod R:

x <- c(12.173, 3.148, 33.873, 0.160, 3.054, 11.579, 13.491, 7.048, 48.836,
       16.478, 3.323, 3.520, 7.113, 5.358)

y <- c(7.635, 1.508, 29.987, 13.636, 8.709, 13.132, 12.141, 5.280, 23.447, 
       18.687, 13.055, 47.747, 0.334,7.745, 26.287, 34.390, 9.596)

# observed ratio of sample means
r.obs <- mean(x)/mean(y)

# sample sizes
n.x <- length(x)
n.y <- length(y)

# define log likelihood ratio function
calc.llr <- function(r,n.x,n.y){
  n.x * log(n.x/n.y + 1/r) + n.y*log(n.y/n.x + r) + n.x*log(n.y/(n.x+n.y)) + n.y*log(n.x/(n.x+n.y))
}

# observed log likelihood ratio
calc.llr(r.obs,n.x, n.y) -> llr.obs

# p-value in lower tail
pf(r.obs,2*n.x,2*n.y) -> p.lo

# find the other ratio of sample means giving an LLR equal to that observed
uniroot(function(x) calc.llr(x,n.x,n.y)-llr.obs, lower=1.2, upper=1.4, tol=1e-6)$root -> r.hi

#p.value in upper tail
p.hi <- 1-pf(r.hi,2*n.x,2*n.y)

# overall p.value
p.value <- p.lo + p.hi

#approximate p.value
1-pchisq(2*llr.obs, 1)

— Scortchi - Przywróć Monikę
źródło