Uczenie się wariancji jest trudne.
Potrzeba (być może zaskakująco dużej) próbki, aby dobrze oszacować wariancję w wielu przypadkach. Poniżej pokażę rozwój dla „kanonicznej” przypadku IID normalnej próbce.
Załóżmy, że , i = 1 , … , n są niezależnymi zmiennymi losowymi N ( μ , σ 2 ) . Dążyć do 100 ( 1 - α ) % przedział ufności dla odchylenia, tak że szerokość przedziału jest ρ s 2 , czyli szerokość 100 ρ % estymaty punktowej. Na przykład, jeśli ρ = 1 / 2 , to szerokość CI wynosi połowę wartości oszacowania punktów, na przykład, jeśliYii=1,…,nN(μ,σ2)100(1−α)%ρs2100ρ%ρ=1/2 , wtedy CI byłoby czymś w rodzaju ( 8 ,s2=10 , o szerokości 5. zauważyć asymetrię wokół punktowej oceny, jak również. ( A 2 jest nieobciążony estymator dla wariancji).(8,13)s2
"The" (a "a") przedział ufności dla jest
( N - 1 ), s 2s2
Gdzie χ 2
(n−1)s2χ2(1−α/2)(n−1)≤σ2≤(n−1)s2χ2(α/2)(n−1),
jest
βkwantylem rozkład chi-kwadrat z
n-1stopni swobody. (Wynika to z faktu, że
(n-1)Ś2/σ2, jest zasadniczym ilość w Gaussa ustawienia)
χ2β(n−1)βn−1(n−1)s2/σ2
Chcemy zminimalizować szerokość, aby
Tak że pozostaje do rozwiązania przez N , tak że
( n - 1 ), ( 1
L(n)=(n−1)s2χ2(α/2)(n−1)−(n−1)s2χ2(1−α/2)(n−1)<ρs2,
n(n−1)⎛⎝⎜1χ2(α/2)(n−1)−1χ2(1−α/2)(n−1)⎞⎠⎟<ρ.
Dla przypadku 99% przedziału ufności, mamy dla ρ = 1 i n = 5.321 dla p = 0,1 . Ten ostatni przypadek daje przedział, który jest ( wciąż! ) 10% tak duży, jak punktowa ocena wariancji.n=65ρ=1n=5321ρ=0.1
Jeśli wybrany poziom ufności jest mniejsza niż 99%, a następnie tym samym przedziale szerokości będą uzyskane na dolnej wartości . Ale n może nadal być większe niż można by się domyślić.nn
Wykres zależności wielkość próbki porównaniu proporcjonalnego SZEROKOŚCI p coś wskazuje, że patrzy się asymptotycznie liniowa w skali log-log; Innymi słowy, na mocy orzecznictwa - jak związek. Możemy oszacować siłę tego związku mocy prawa (z grubsza) jakonρ
α^≈log0.1−log1log5321−log65=−log10log523165≈−0.525,
co jest, niestety, zdecydowanie spowolnić!
Jest to rodzaj „kanonicznego” przypadku, który pozwala poczuć, jak przejść do obliczeń. Na podstawie twoich wykresów twoje dane nie wyglądają szczególnie normalnie; w szczególności, nie jest to, co wydaje się być zauważalne asymetrii.
Ale powinno to daje wyobrażenie ballpark czego się spodziewać. Należy pamiętać, że aby odpowiedzieć na drugie pytanie powyżej, konieczne jest ustalenie pewnego poziomu ufności pierwszy, który mam ustawione na 99% w rozwoju wyżej w celach demonstracyjnych.