Studiując na temat wystarczalności, natknąłem się na twoje pytanie, ponieważ chciałem również zrozumieć intuicję dotyczącą tego, co zebrałem, to właśnie wymyśliłem (daj mi znać, co myślisz, jeśli popełniłem jakieś błędy itp.).
Niech będzie losową próbką z rozkładu Poissona ze średnią θ > 0 .X1,…,Xnθ>0
Wiemy, że jest wystarczającą statystyką dla θ , ponieważ rozkład warunkowy X 1 , … , X n dla T ( X ) jest wolny od θ , innymi słowy, nie zależy od θ .T(X)=∑ni=1XiθX1,…,XnT(X)θθ
Teraz statystyk wie, że X 1 , … , X n i . i . d ~ P O ı s s O n ( 4 ) i tworzy n = 400 przypadkowe wartości z tego rozkładu:A X1,…,Xn∼i.i.dPoisson(4)n=400
n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)
freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)
Dla wartości, które stworzył statystyk , bierze je sumę i pyta statystyki B.AB :
„Mam te przykładowe wartości wzięte z rozkładu Poissona. Wiedząc, że ∑ n i = 1 x i = y = 4068x1,…,xn∑ni=1xi=y=4068 , co możesz mi powiedzieć o tym rozkładzie?”
Zatem sama wiedza o tym, że (oraz fakt, że próbka powstała z rozkładu Poissona) jest wystarczająca, aby statystyk B mógł powiedzieć cokolwiek na temat θ∑ni=1xi=y=4068Bθ ? Ponieważ wiemy, że jest to wystarczająca statystyka, wiemy, że odpowiedź brzmi „tak”.
Aby dowiedzieć się więcej na temat tego znaczenia, wykonaj następujące czynności (zaczerpnięte z „Wprowadzenie do statystyki matematycznej” Hogga & Mckeana i Craiga, wydanie siódme, ćwiczenie 7.1.9):
„ decyduje się stworzyć kilka fałszywych obserwacji, które nazywa z 1 , z 2 , … , z n (ponieważ wie, że prawdopodobnie nie będą one równe oryginalnym wartościom x ) w następujący sposób. Zauważa, że warunkowe prawdopodobieństwo niezależnego Poissona zmienne losowe Z 1 , Z 2 … , Z n równe z 1 , z 2 , … , z n , przy podanym ∑ z i = y , wynosiBz1,z2,…,znxZ1,Z2…,Znz1,z2,…,zn∑zi=y
θz1e−θz1!θz2e−θz2!⋯θzne−θzn!nθye−nθy!=y!z1!z2!⋯zn!(1n)z1(1n)z2⋯(1n)zn
Y=∑Zinθyn1/nByz1,…,zn „.
Tak stwierdza ćwiczenie. Zróbmy dokładnie to:
# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)
And let's see what Z looks like (I'm also plotting the real density of Poisson(4) for k=0,1,…,13 - anything above 13 is pratically zero -, for comparison):
# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"),
col = c("black","green"),pch=c(1,4))
So, knowing nothing about θ and knowing only the sufficient statistic Y=∑Xi we were able to recriate a "distribution" that looks a lot like a Poisson(4) distribution (as n increases, the two curves become more similar).
Now, comparing X and Z|y:
plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))
We see that they are pretty similar, as well (as expected)
So, "for the purpose of making a statistical decision, we can ignore the individual random variables Xi and base the decision entirely on the Y=X1+X2+⋯+Xn" (Ash, R. "Statistical Inference: A concise course", page 59).