Obliczanie wymaganej wielkości próby, dokładności oszacowania wariancji?

18

tło

Mam zmienną o nieznanym rozkładzie.

Mam 500 próbek, ale chciałbym zademonstrować dokładność, z jaką mogę obliczyć wariancję, np. Aby argumentować, że wielkość próbki 500 jest wystarczająca. Interesuje mnie również znajomość minimalnej wielkości próby, która byłaby wymagana do oszacowania wariancji z dokładnością . $X\%$

pytania

Jak mogę obliczyć

precyzja mojego oszacowania wariancji przy wielkości próby ? z ? $n=500$ $n=N$
Jak obliczyć minimalną liczbę próbek wymaganą do oszacowania wariancji z dokładnością ? $X$

Przykład

Figura 1 oszacowanie gęstości parametru na podstawie 500 próbek.

wprowadź opis zdjęcia tutaj

Figura 2 Tutaj jest wykresem wielkość próbki o szacunki wokół osi x w porównaniu z odchylenia na osi y, że zostały obliczone za pomocą podpróbki z próbki 500. Chodzi o to, że oszacowania będą zbieżne do prawdziwego wariancji jak n wzrasta .

Jednakże oszacowania nie obowiązują niezależnie od próbki wykorzystano do oszacowania wariancji dla nie są niezależne od siebie i od użytych próbek wariancji ustalenia w $n \in [10,125,250,500]$ $n\in [20,40,80]$

wprowadź opis zdjęcia tutaj

— Abe
źródło

Pamiętaj tylko, że jeśli składnikiem twojej nieznanej dystrybucji jest dystrybucja Cauchy'ego, wariancja jest niezdefiniowana.

— Mike Anderson,

@Mike lub wręcz nieskończoną liczbę innych dystrybucjach.

— Glen_b

11

Dla IID zmiennych losowych , Niezależność estymator różniącym (w jednej z mianownika ) ma wariancję: $X_1, \dotsc, X_n$ $s^2$ $n-1$

V a r (s^{2}) = σ^{4} (\frac{2}{n - 1} + \frac{κ}{n})

$\mathrm{Var}(s^2) = \sigma^4 \left(\frac{2}{n-1} + \frac{\kappa}{n}\right)$

gdzie jest nadmiar kurtoza rozkładu (odnośnik: Wikipedia ). Więc teraz musisz również oszacować kurtozę swojej dystrybucji. Można użyć ilość czasem określana jako (również z Wikipedii ): $\kappa$ $\gamma_2$

γ_{2} = \frac{μ_{4}}{σ_{4}} - 3

$\gamma_2 = \frac{\mu_4}{\sigma_4} - 3$

Zakładam, że jeśli użyjesz jako oszacowania dla i jako oszacowania dla , to otrzymasz rozsądny szacunek dla , chociaż nie widzę gwarancji, że jest bezstronny. Zobacz, czy jest on zgodny z wariancji wśród podzbiorów swoimi 500 punktami danych racjonalnie, a jeśli to nie nie martw się już o tym :) $s$ $\sigma$ $\gamma_2$ $\kappa$ $\mathrm{Var}(s^2)$

— Erik P.
źródło

masz odniesienie podręcznik dla nieobciążonego estymatora wariancji? Nie wiem, dokąd pójść z Wikipedii, żeby uzyskać więcej informacji.

— Abe

Ja nie mam standardowy tekst Rice ze mną tu, więc nie mogę sprawdzić numer strony dla ciebie, ale jestem pewien, że tam jest. Wikipedia sugeruje, że należy również wymienić w: Montgomery, DC i Runger, GC: Statystyki Stosowanej i prawdopodobieństwa dla inżynierów , strona 201. John Wiley & Sons New York, 1994.

— Erik P.

dzięki za pomoc z tym. Ta odpowiedź była bardzo przydatna i to było pouczające do oszacowania niepewności wariancji - Mam stosowane równanie około 10 razy w ciągu ostatniego dnia. obliczania

jest łatwe z biblioteki:

k a p p a

$kappa$ momentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)

— Abe

masz szansę znaleźć numer strony z tekstu Rice? Nie mogę tego znaleźć w Caselli i Berger. Podstawowym odniesienia byłoby nawet lepiej, jeśli go znamy. Na stronie Wikipedii jest szczególnie un-odwoływać.

— Abe

Hmmm ... wygląda na to, że Rice też nie ma wzoru. Uważam na to, ale w tym momencie nie mam w ogóle referencji.

— Erik P.

16

Uczenie się wariancji jest trudne.

Potrzeba (być może zaskakująco dużej) próbki, aby dobrze oszacować wariancję w wielu przypadkach. Poniżej pokażę rozwój dla „kanonicznej” przypadku IID normalnej próbce.

Załóżmy, że , są niezależnymi zmiennymi losowymi . Dążyć do przedział ufności dla odchylenia, tak że szerokość przedziału jest , czyli szerokość estymaty punktowej. Na przykład, jeśli , to szerokość CI wynosi połowę wartości oszacowania punktów, na przykład, jeśli $Y_i$ $i=1,\ldots,n$ $\mathcal{N}(\mu, \sigma^2)$ $100(1-\alpha)\%$ $\rho s^2$ $100\rho \%$ $\rho = 1/2$ , wtedy CI byłoby czymś w rodzaju $s^2 = 10$ , o szerokości 5. zauważyć asymetrię wokół punktowej oceny, jak również. ( jest nieobciążony estymator dla wariancji). $(8,\,13)$ $s^2$

"The" (a "a") przedział ufności dla jest $s^2$ Gdzie

\frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (1 - α / 2)}} \leq σ^{2} \leq \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (α / 2)}},

$\frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \leq \sigma^2 \leq \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} \>,$

jest

kwantylem rozkład chi-kwadrat z

stopni swobody. (Wynika to z faktu, że

, jest zasadniczym ilość w Gaussa ustawienia)

χ_{(n - 1)}^{2 β}

$\chi_{(n-1)}^{2\;\beta}$

β

$\beta$

n - 1

$n-1$

(n - 1) s^{2} / σ^{2}

$(n-1)s^2/\sigma^2$

Chcemy zminimalizować szerokość, aby Tak że pozostaje do rozwiązania przez , tak że

L (n) = \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (α / 2)}} - \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (1 - α / 2)}} < ρ s^{2},

$L(n) = \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} < \rho s^2 \>,$

n

$n$

(n - 1) (\frac{1}{χ_{(n - 1)}^{2 (α / 2)}} - \frac{1}{χ_{(n - 1)}^{2 (1 - α / 2)}}) < ρ .

$(n-1) \left(\frac{1}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{1}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \right) < \rho .$

Dla przypadku 99% przedziału ufności, mamy dla i dla . Ten ostatni przypadek daje przedział, który jest ( wciąż! ) 10% tak duży, jak punktowa ocena wariancji. $n = 65$ $\rho = 1$ $n = 5321$ $\rho = 0.1$

Jeśli wybrany poziom ufności jest mniejsza niż 99%, a następnie tym samym przedziale szerokości będą uzyskane na dolnej wartości . Ale może nadal być większe niż można by się domyślić. $n$ $n$

Wykres zależności wielkość próbki porównaniu proporcjonalnego SZEROKOŚCI coś wskazuje, że patrzy się asymptotycznie liniowa w skali log-log; Innymi słowy, na mocy orzecznictwa - jak związek. Możemy oszacować siłę tego związku mocy prawa (z grubsza) jako $n$ $\rho$

\hat{α} \approx \frac{\log 0.1 - \log 1}{\log 5321 - \log 65} = \frac{- \log 10}{\log \frac{5231}{65}} \approx - 0.525,

$\hat{\alpha} \approx \frac{\log 0.1 - \log 1}{\log 5321 - \log 65} = \frac{-\log 10}{\log \frac{5231}{65}} \approx -0.525 ,$

co jest, niestety, zdecydowanie spowolnić!

Jest to rodzaj „kanonicznego” przypadku, który pozwala poczuć, jak przejść do obliczeń. Na podstawie twoich wykresów twoje dane nie wyglądają szczególnie normalnie; w szczególności, nie jest to, co wydaje się być zauważalne asymetrii.

Ale powinno to daje wyobrażenie ballpark czego się spodziewać. Należy pamiętać, że aby odpowiedzieć na drugie pytanie powyżej, konieczne jest ustalenie pewnego poziomu ufności pierwszy, który mam ustawione na 99% w rozwoju wyżej w celach demonstracyjnych.

— kardynał
źródło

n | ρ

$n|\rho$

r h o

$rho$

n = 65

$n=65$

ρ < 1

$\rho<1$

ρ

$\rho$

1 \times s^{2}

$1\times s^2$

ρ

$\rho$

1 %

$1\%$

s^{2}

$s^2$

@Abe, aktualizowane i mam nadzieję wyjaśnić w tym procesie. Był jeden szczególnie złe literówka w poprzedniej wersji. Przepraszam za to.

— kardynał

bardzo ładne odpowiedź, ale wybrałem jedną z @Erik ponieważ jest bardziej dotyczy mojego problemu (jak mój parametr nie jest normalnie rozprowadzane).

— Abe

@Abe: Nie ma problemu. To, co jest dla zaznaczenia. Moja odpowiedź była (jest) przeznaczone do zilustrowania, bardziej niż cokolwiek innego. Z tego, co mogę powiedzieć, to jest nadal wydaje się być jedynym, który adresy zarówno na pytania i będzie (asymptotycznie) skorygować nawet w scenariuszu, że Erik konturów. (+1 do niego ponad rok temu.) :)

— kardynał

Masz rację, a ja cieszę się, że mam teraz powrócił odpowiedź. Skończyło się na użyciu ogólnego obliczenia @Erik, ale teraz widzę wartość w ogólnym rozwiązaniu. Plus, prezentując CI zamiast SD rozwiąże problem z moja publiczność mylone widząc statystykę w postaci

, nie rozumiejąc, co wariancja wariancji jest. Tak więc

Należy to bardziej oczywiste, i zgodnie z innymi sprawozdań statystycznych. I to będzie pomocne, aby pokazać asymetrię.

s (s_{s})

$s(s_{s})$

s [l c l, u c l]

$s[lcl,ucl]$

— Abe

1

Skoncentrowałbym się raczej na SD niż na wariancji, ponieważ jest ona w skali, która jest łatwiejsza do interpretacji.

Ludzie czasami patrzą na przedziały ufności dla SD lub wariancji, ale ogólnie skupia się na środkach.

$s^2/\sigma^2$ $\sigma^2$ $\sigma$ $\sigma^2$

— Karl
źródło

(Ta odpowiedź przyszła tutaj po duplikatu pytanie, sformułowane nieco inaczej, została połączona.)

— whuber

1

Poniższy roztwór podaje Greenwood Sandomire w 1950 JASA papieru.

$X_1,\dots,X_n$ $\mathrm{N}(\mu,\sigma^2)$ $\sigma$

S = \sqrt{\sum_{i = 1}^{n} \frac{(X_{i} - \bar{X})^{2}}{n - 1}},

$S=\sqrt{\sum_{i=1}^n\frac{(X_i-\bar{X})^2}{n-1}},$

S

$S$

σ

$\sigma$

0 < u < 1

$0<u<1$

Pr {S < (1 - u) \cdot σ} = a and Pr {S > (1 + u) \cdot σ} = b,

$\Pr\{S<(1-u)\cdot\sigma\}=a \quad\text{and}\quad \Pr\{S>(1+u)\cdot\sigma\}=b,$

γ = 1 - a - b

$\gamma=1-a-b$

Pr {\frac{(n - 1) S^{2}}{σ^{2}} < (n - 1) (1 - u)^{2}} = a

$\Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} < (n-1)(1-u)^2\right\} = a$

Pr {\frac{(n - 1) S^{2}}{σ^{2}} > (n - 1) (1 + u)^{2}} = b .

$\Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} > (n-1)(1+u)^2\right\} = b.$

(n - 1) S^{2} / σ^{2}

$(n-1)S^2/\sigma^2$

χ_{n - 1}^{2}

$\chi^2_{n-1}$

γ = F_{χ_{(n - 1)}^{2}} ((n - 1) (1 + u)^{2}) - F_{χ_{(n - 1)}^{2}} ((n - 1) (1 - u)^{2}),

$\gamma = F_{\chi^2_{(n-1)}}((n-1)(1+u)^2) - F_{\chi^2_{(n-1)}}((n-1)(1-u)^2),$

$n$ $\gamma$ $u$

R kod.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

$u=10\%$ $\gamma=95\%$

Sample size n = 193

— Zen
źródło