Co zrobić, gdy średnie z dwóch próbek są znacznie różne, ale różnica wydaje się zbyt mała, aby mogła mieć znaczenie


13

Mam dwie próbki ( w obu przypadkach). Średnie różnią się o około dwa razy tyle, ile zebrane standardowe. dev. Wynikowa wartość wynosi około 10. Chociaż dobrze wiedzieć, że ostatecznie wykazałem, że średnie nie są takie same, wydaje mi się, że wynika to z dużej n. Patrząc na histogramy danych, z pewnością nie uważam, że tak mała wartość p jest naprawdę reprezentatywna dla danych i, szczerze mówiąc, nie czuję się komfortowo, cytując ją. Prawdopodobnie zadaję złe pytanie. Myślę, że: ok, środki są różne, ale czy to naprawdę ma znaczenie, ponieważ dystrybucje w znacznym stopniu się pokrywają?T.n70T

Czy to jest przydatne do testowania bayesowskiego? Jeśli tak, to gdzie jest dobre miejsce do rozpoczęcia, odrobina googlingu nie przyniosła nic użytecznego, ale nie mogę zadać właściwego pytania. Jeśli to źle, czy ktoś ma jakieś sugestie? Czy jest to po prostu punkt do dyskusji w przeciwieństwie do analizy ilościowej?


Chcę tylko dodać do wszystkich innych odpowiedzi, że twoje pierwsze stwierdzenie jest błędne: NIE ostatecznie wykazałeś, że środki są różne . Wartość p testu t mówi ci, czy prawdopodobieństwo obserwacji twoich danych lub bardziej ekstremalnych wartości jest prawdopodobne / mało prawdopodobne, biorąc pod uwagę hipotezę zerową (która dla testu t to , tj. : { „Środki są równe”}), co nie znaczy, że środki są w rzeczywistości różne . Zakładam również, że wykonałeś również test F w celu przetestowania równości wariancji przed wykonaniem testu t wariancji zbiorczej, prawda? H 0μA=μBH0
Néstor

Twoje pytanie jest bardzo dobre, ponieważ wprowadza ważne rozróżnienie i pokazuje, że faktycznie myślisz o swoich danych, zamiast szukać gwiazd na podstawie wyników statystycznych i deklarować, że jesteś skończony. Jak wskazuje kilka odpowiedzi, istotność statystyczna nie jest tym samym co znacząca . A kiedy się nad tym zastanowić, nie mogą być: skąd procedura statystyczna wiedziałaby, że statystycznie istotna średnia różnica 0,01 oznacza coś w polu A, ale jest bez znaczenia w polu B?
Wayne

W porządku, język nie był na miejscu, ale kiedy wartość p jest taka, jaką dostaję, zwykle nie jestem zbyt wybredna w stosunku do słów. Zrobiłem test F (i wykres QQ). Jak mówią, jest wystarczająco blisko do jazzu.
Bowler

1
FWIW, jeśli twoje środki są 2 SD od siebie, wydaje mi się to dość dużą różnicą. Będzie to oczywiście zależeć od twojej dziedziny, ale to różnica, którą ludzie z łatwością zauważą gołym okiem (np. Średnie wysokości mężczyzn i kobiet w USA w wieku 20-29 lat różnią się o około 1,5 SD). IMO, jeśli dystrybucje nie w ogóle się nie pokrywają, tak naprawdę nie trzeba przeprowadzać żadnych analiz danych; co najmniej w / tak małe jak 6, będzie wynosić <0,05, jeśli rozkłady się nie pokrywają. pNp
gung - Przywróć Monikę

Zgadzam się, że różnica jest duża, choć jak się okazuje, całkowicie lekceważąca.
Bowler

Odpowiedzi:


12

Niech oznacza średnią z pierwszej populacji, a oznacza średnią z drugiej populacji. Wydaje się, że użyłeś do dwóch prób -test do testowania, czy . Znaczący wynik oznacza, że , ale różnica wydaje się być mała, aby miała znaczenie dla twojej aplikacji.μ 2 t μ 1 = μ 2 μ 1μ 2μ1μ2tμ1=μ2μ1μ2

To, co spotkałeś, to fakt, że statystycznie znaczący często może być czymś innym niż znaczącym dla aplikacji . Chociaż różnica może być istotna statystycznie, może nadal nie mieć znaczenia .

Testy bayesowskie nie rozwiążą tego problemu - nadal po prostu dojdziesz do wniosku, że istnieje różnica.

Może być jednak wyjście. Na przykład w przypadku jednostronnej hipotezy możesz zdecydować, że jeśli jest jednostek większe niż to byłaby to znacząca różnica, która jest wystarczająco duża, aby mieć znaczenie dla twojej aplikacji. Δ μ 2μ1Δμ2

W takim przypadku sprawdziłbyś, czy zamiast czy . -statistic (przy założeniu równych wariancji) to w tym przypadku jest gdzie jest zbiorczym oszacowaniem odchylenia standardowego. Zgodnie z hipotezą zerową, to jest statystyka -distributed z stopni swobody.μ 1 - μ 2 = 0 t T = ˉ x 1 - ˉ x 2 - Δμ1μ2Δμ1μ2=0t

T=x¯1x¯2Δsp1/n1+1/n2
sptn1+n22

Łatwym sposobem przeprowadzenia tego testu jest odjęcie od twoich obserwacji od pierwszej populacji, a następnie przeprowadzenie regularnego jednostronnego dwustronnego testu .Δt


8

Prawidłowe jest porównanie kilku podejść, ale nie w celu wybrania tego, które faworyzuje nasze pragnienia / przekonania.

Moja odpowiedź na twoje pytanie brzmi: możliwe jest, że dwie dystrybucje pokrywają się, gdy mają różne środki, co wydaje się być twoim przypadkiem (ale musielibyśmy zobaczyć twoje dane i kontekst, aby podać bardziej precyzyjną odpowiedź).

Zilustruję to za pomocą kilku podejść do porównania normalnych środków .

1. testt

Rozważ dwie symulowane próbki o rozmiarze z i , a następnie wartość wynosi około jak w twoim przypadku (patrz kod R poniżej).70N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

Jednak gęstości wykazują znaczne nakładanie się. Pamiętaj jednak, że testujesz hipotezę o środkach, które w tym przypadku są wyraźnie różne, ale ze względu na wartość nakładają się na siebie gęstości.σ

wprowadź opis zdjęcia tutaj

2. Prawdopodobieństwo profiluμ

Definicja prawdopodobieństwa i prawdopodobieństwa profilu znajduje się w punktach 1 i 2 .

W tym przypadku prawdopodobieństwo profilu próbki o wielkości i średniej próbki wynosi po prostu .μnx¯Rp(μ)=exp[n(x¯μ)2]

W przypadku danych symulowanych można je obliczyć w R w następujący sposób

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

Jak widać przedziały prawdopodobieństwa i nie pokrywają się na żadnym rozsądnym poziomie.μ1μ2

3. tylnego używając Jeffreys przedμ

Rozważmy Jeffreys przed o(μ,σ)

π(μ,σ)1σ2

Tylne dla każdego zestawu danych można obliczyć w następujący sposóbμ

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

Ponownie, przedziały wiarygodności środków nie pokrywają się na żadnym rozsądnym poziomie.

Podsumowując, można zobaczyć, w jaki sposób wszystkie te podejścia wskazują na znaczną różnicę środków (co jest głównym przedmiotem zainteresowania), pomimo nakładania się rozkładów.

podejście porównawcze

Sądząc z twoich obaw związanych z nakładaniem się gęstości, kolejną interesującą wartością może być , prawdopodobieństwo, że pierwsza zmienna losowa jest mniejsza niż druga zmienna. Ilość tę można oszacować nieparametrycznie, jak w tej odpowiedzi . Pamiętaj, że nie ma tu żadnych założeń dystrybucyjnych. W przypadku danych symulowanych estymator ten wynosi , co pokazuje pewne nakładanie się w tym sensie, podczas gdy średnie są znacznie różne. Proszę spojrzeć na kod R pokazany poniżej.0,8823825P(X<Y)0.8823825

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

Mam nadzieję, że to pomoże.


2
(+1) Dziękujemy za naprawdę przydatną odpowiedź na temat metod baysiańskich. Również link P (X <Y) odpowiada na inny problem, nad którym zastanawiałem się w tej samej analizie.
Bowler

7

Odpowiedź na właściwe pytanie

ok, środki są różne, ale czy to naprawdę ma znaczenie, ponieważ rozkłady dzielą się w znacznym stopniu?

Każdy test, który pyta, czy środki grupy są różne, przy prawidłowym działaniu powie ci, czy środki są różne. Nie powie ci, że rozkłady samych danych są różne, ponieważ jest to inne pytanie. To pytanie z pewnością zależy od tego, czy środki są różne, ale także od wielu innych rzeczy, które można (niepełnie) podsumować jako wariancję, przekrzywienie i kurtozę.

Prawidłowo zauważasz, że pewność, gdzie znajdują się średnie, zależy od ilości danych, które musisz je oszacować, więc posiadanie większej ilości danych pozwoli ci dostrzec średnie różnice w prawie pokrywających się rozkładach. Ale zastanawiasz się, czy

takie jak mała wartość p jest naprawdę reprezentatywna dla danych

Rzeczywiście nie jest, przynajmniej nie bezpośrednio. I to jest z założenia. Jest reprezentatywna (w przybliżeniu) pewności, że konkretna para przykładowych statystyk danych (a nie samych danych) jest inna.

Jeśli chcesz przedstawić same dane w bardziej formalny sposób niż po prostu pokazywanie histogramów i testowanie ich momentów, być może para wykresów gęstości może być pomocna. Zależy to raczej od argumentu, którego używasz do testu.

Wersja bayesowska

Pod tymi wszystkimi względami „testy” Bayesa i testy T będą zachowywać się w ten sam sposób, ponieważ próbują zrobić to samo. Jedyne zalety, które mogę wymyślić, stosując podejście bayesowskie, to: a) łatwość wykonania testu pozwalającego na możliwe różne wariancje dla każdej grupy oraz b) skupienie się na oszacowaniu prawdopodobnej wielkości różnicy średnich zamiast znajdować wartość p dla jakiegoś testu różnicy. To powiedziawszy, te zalety są dość niewielkie: np. W b) zawsze można zgłosić przedział ufności dla różnicy.

Znaki cudzysłowu powyżej „testów” są celowe. Z pewnością możliwe jest wykonanie testu hipotezy bayesowskiej, a ludzie to robią. Sugerowałbym jednak, że przewaga komparatywna tego podejścia polega na budowaniu wiarygodnego modelu danych i przekazywaniu jego ważnych aspektów z odpowiednim poziomem niepewności.


3

Przede wszystkim nie jest to problem polegający na testowaniu częstych. Problem tkwi w hipotezie zerowej, że średnie są dokładnie równe. Dlatego jeśli populacje różnią się pod względem środków o jakąkolwiek niewielką ilość, a wielkość próby jest wystarczająco duża, szansa na odrzucenie tej hipotezy zerowej jest bardzo wysoka. Dlatego wartość p dla twojego testu okazała się bardzo mała. Sprawcą jest wybór hipotezy zerowej. Wybierz d> 0 i przyjmij hipotezę zerową, że średnie różnią się o mniej niż d wartością bezwzględną o mniej niż d. Wybierasz d, aby prawdziwa różnica była wystarczająco duża, aby odrzucić. Twój problem zniknął. Testy bayesowskie nie rozwiążą twojego problemu, jeśli nalegasz na zerową hipotezę o dokładnej równości środków.


Pisałem swoją odpowiedź w tym samym czasie co dwie pozostałe.
Michael R. Chernick,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.