Jak znaleźć odchylenie standardowe próbki odchylenie standardowe od rozkładu normalnego?


11

Wybacz mi, że coś przeoczyłem.

Jestem fizykiem z rozkładem (histogramem) skupionym wokół średniej wartości zbliżonej do rozkładu normalnego. Ważną dla mnie wartością jest odchylenie standardowe tej losowej zmiennej Gaussa. Jak miałbym spróbować znaleźć błąd w odchyleniu standardowym próbki? Mam wrażenie, że ma to związek z błędem na każdym bin w oryginalnym histogramie.


Wskazówka znajduje się na stronie stats.stackexchange.com/questions/26924 . Zasadniczo błąd próbkowania wariancji można obliczyć na podstawie pierwszych czterech momentów rozkładu, a zatem błąd próbkowania SD można przynajmniej oszacować na podstawie tych momentów.
whuber

Odpowiedzi:


12

Wygląda na to, że pytasz o obliczenie standardowego odchylenia standardowego odchylenia próbki. Oznacza to, że pytasz o , gdzieSD(s)=var(s)

s=1n1i=1n(XiX¯),

X1,...,XnN(μ,σ2) i to średnia z próby.X¯

Po pierwsze wiemy z podstawowych właściwości wariancji, że

var(s)=E(s2)E(s)2

Ponieważ wariancja próbki jest bezstronna, wiemy, żeE(s2)=σ2 . W Dlaczego odchylenie standardowe próbki jest tendencyjnym estymatorem ? σ, jest obliczana, z której można wywnioskować,E(s)

E(s)2=2σ2n1(Γ(n/2)Γ(n12))2

w związku z tym

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2

Słuszna uwaga. Mam oszacowanie wariancji s ^ 2. Biorąc pierwiastek kwadratowy daje oszacowanie standardowego odchylenia s ^ 2. Ale odpowiedziałeś na rzeczywiste pytanie, które miało uzyskać standardowe odchylenie s. Zakładam, że ze względów praktycznych i Ty zastąpiłbyś σ s, aby uzyskać oszacowanie za pomocą wzoru.
Michael R. Chernick

Tak, to prawda, można zastąpić z s i przybliżenie to działa dobrze, nawet dla skromnych rozmiarach próbki - Zrobiłem kilka testów z n = 20 . σsn=20
Makro

11

Wielkość ma rozkład chi-kwadrat o n - 1 stopniach swobody, gdy próbki są niezależne i rozmieszczone z takim samym rozkładem normalnym. Tej wielkości można użyć, aby uzyskać przedziały ufności dla wariancja normy i jej odchylenie standardowe. Jeśli masz surowe wartości, a nie tylko centralną wartość pojemników, możesz obliczyć s 2 . X=(n1)s2/σ2n1s2

Wiadomo, że jeśli ma rozkład chi-kwadrat o n - 1 stopniach swobody, jego wariancja wynosi 2 ( n - 1 ) . Znając to i fakt, że V a r ( c X ) = c 2 V a r ( X ) otrzymujemy, że s 2 ma wariancję równą 2 ( n - 1 ) σ 4Xn12(n1)Var(cX)=c2Var(X)s2 Chociaż σ 4 jest nieznany, możesz go przybliżyć w przybliżeniu do s 4 i masz przybliżone wyobrażenie o tym, jaka jest wariancja s 2 .

2(n1)σ4(n1)2=2σ4n1.
σ4s4s2

Zamierzałem opublikować to na początku, ale problem, jaki tu widzę, polega na tym, że jest nieznany. Biorąc to pod uwagę, nie wiem, czy poprawne jest przybliżenie s 4σ 4, jeśli nawet nie znamy wielkości próbki. Pamiętam, że można pokazać, że czwarty moment może mieć poważne problemy z wartościami odstającymi. σ2s4σ4
Néstor

jest spójnym estymatorem σ 4 (pod warunkiem, że σ 4 istnieje), prawda @Nesp? Myślę, że to zwykle ma na myśli, gdy ludzie mówią „przybliżony” lub „szorstki pomysł”. s4σ4σ4
Makro

2
Może brak snu, ale czy to nie jest okrągłe rozumowanie?
Néstor

Od samego początku zakładaliśmy, że dane pochodzą z rozkładu normalnego, więc nie ma problemu z wartościami odstającymi. Miałem na myśli szorstki sposób, jaki sugeruje Macro. Zgadzam się, że wielkość próby wpływa na to, jak blisko s ^ 4 jest do σ ^ 4. Ale martwienie się o wartości odstające jest poza Nesp. Jeśli oddaliście mnie za to, uważam, że jest to bardzo niesprawiedliwe. To, co przedstawiłem, to standardowy sposób oszacowania odchylenia standardowego dla s ^ 2, gdy dane są NORMALNIE ROZPOWSZECHNIANE.
Michael R. Chernick

@Nesp, Michael podał spójny estymator wariancji odchylenia standardowego próbki od normalnie rozłożonej próbki - w przypadku dużych próbek zrobi to dobrze - zasymuluj ją i dowiedz się. Nie jestem pewien, dlaczego uważasz, że to jest okrągłe rozumowanie.
Makro

7

σ

x=(x1,...,xn)(μ,σ)

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

(μ^,σ^)=(x¯,s)s=1nj=1n(xjx¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

Rp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

σI=(L,U)σ2I=(L2,U2)


Myślę, że naprawdę chciał po prostu standardowego odchylenia s.
Michael R. Chernick
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.