W artykule znalazłem wzór na standardowe odchylenie wielkości próby
gdzie to średni zakres podpróbek (rozmiar ) z próbki głównej. Jak obliczana jest liczba ? To jest poprawny numer? 62,534
W artykule znalazłem wzór na standardowe odchylenie wielkości próby
gdzie to średni zakres podpróbek (rozmiar ) z próbki głównej. Jak obliczana jest liczba ? To jest poprawny numer? 62,534
Odpowiedzi:
W przykładowej o n niezależnie od rozkładu wartości F z PDF F , pdf wspólnego dystrybucji skrajnymi min ( x ) = x [ 1 ] i max ( x ) = x [ n ] jest proporcjonalna do
(Stała proporcjonalności jest odwrotnością współczynnika wielomianowego . Intuicyjnie ten wspólny plik PDF wyraża szansę znalezienia najmniejszej wartości z zakresu[x[1],x[1]+dx[1]), największej wartości z zakresu[x[n],x[n]+dx[n]), a środkowe wartości między nimi w zakresie [ x [ 1 ] + d x [ 1 ] , x [ n ] ) . Gdy F jest ciągłe, możemy zastąpić ten środkowy zakres ( x [ 1 ] , x [ n ] ] , tym samym zaniedbując jedynie „nieskończenie małą” wartość prawdopodobieństwa. Powiązane prawdopodobieństwa, w porządku różniczkowym pierwszego rzędu, to f ( x [ 1 ]F ( x [ n ] ) d x [ n ] , i F ( x [ n ] ) - F ( x [ 1 ] ) , . R, obecnie co oczywiste, w którym wzór pochodzi)
Taking the expectation of the range gives for any Normal distribution with standard deviation and . The expected range as a multiple of depends on the sample size :
These values were computed by numerically integrating over , with set to the standard Normal CDF, and dividing by the standard deviation of (which is just ).
Podobny multiplikatywny związek między oczekiwanym zakresem a odchyleniem standardowym będzie obowiązywał dla dowolnej rodziny rozkładów w skali lokalizacji, ponieważ jest to właściwość samego kształtu rozkładu. Na przykład tutaj jest porównywalny wykres jednolitych rozkładów:
i rozkłady wykładnicze:
Wartości z poprzednich dwóch wykresów uzyskano przez dokładną - nie numeryczną - całkowanie, co jest możliwe dzięki względnie prostym formom algebraicznym i F w każdym przypadku. Dla rozkładów jednorodnych wynoszą one n - 1 a dla rozkładów wykładniczych są oneγ+ψ(n)=γ+ Γ ′ ( n ) gdzieγjest stałą Eulera, aψjest funkcją „polygamma”, logarytmiczną pochodną funkcji Eulera Gamma.
Chociaż różnią się (ponieważ te rozkłady wyświetlają szeroki zakres kształtów), trzy z grubsza zgadzają się wokół , co pokazuje, że mnożnik 2.5 nie zależy silnie od kształtu i dlatego może służyć jako wszechstronna, solidna ocena odchylenia standardowego gdy znane są zakresy małych podpróbek. (Rzeczywiście, bardzo gruboogoniasty rozkład t Studenta z trzema stopniami swobody wciąż ma mnożnik około 2,3 dla n = 6 , wcale nie tak daleko od 2,5 ).
To przybliżenie jest bardzo zbliżone do rzeczywistego odchylenia standardowego próbki. Napisałem szybki skrypt R, aby to zilustrować:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
co daje:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
Teraz nie jestem (jeszcze) pewien, dlaczego to działa, ale przynajmniej wygląda (na pierwszy rzut oka), że przybliżenie jest przyzwoite.
Edycja: Zobacz wyjątkowy komentarz @ Whuber (powyżej), dlaczego to działa
mean(R)/2.474
równą, bardzo blisko sd(x)
.