Dlaczego używamy tendencyjnego i mylącego wzoru odchylenia standardowego dla rozkładu normalnego?


20

Zaskoczyło mnie to, kiedy po raz pierwszy przeprowadziłem symulację Monte Carlo z rozkładem normalnym i odkryłem, że średnia z standardowych odchyleń od próbek, z których każda ma wielkość próbki tylko , okazała się znacznie mniejsza niż, tj. uśrednianie razy, użyte do wygenerowania populacji. Jest to jednak dobrze znane, jeśli rzadko pamiętane, a ja tak jakby wiedziałem, inaczej nie przeprowadziłbym symulacji. Oto symulacja.100100n=22πσ

Oto przykład przewidywania 95% przedziałów ufności dla przy użyciu 100, , szacunków i .N(0,1)n=2SDE(sn=2)=π2SD

 RAND()   RAND()    Calc    Calc    
 N(0,1)   N(0,1)    SD      E(s)    
-1.1171  -0.0627    0.7455  0.9344  
 1.7278  -0.8016    1.7886  2.2417  
 1.3705  -1.3710    1.9385  2.4295  
 1.5648  -0.7156    1.6125  2.0209  
 1.2379   0.4896    0.5291  0.6632  
-1.8354   1.0531    2.0425  2.5599  
 1.0320  -0.3531    0.9794  1.2275  
 1.2021  -0.3631    1.1067  1.3871  
 1.3201  -1.1058    1.7154  2.1499  
-0.4946  -1.1428    0.4583  0.5744  
 0.9504  -1.0300    1.4003  1.7551  
-1.6001   0.5811    1.5423  1.9330  
-0.5153   0.8008    0.9306  1.1663  
-0.7106  -0.5577    0.1081  0.1354  
 0.1864   0.2581    0.0507  0.0635  
-0.8702  -0.1520    0.5078  0.6365  
-0.3862   0.4528    0.5933  0.7436  
-0.8531   0.1371    0.7002  0.8775  
-0.8786   0.2086    0.7687  0.9635  
 0.6431   0.7323    0.0631  0.0791  
 1.0368   0.3354    0.4959  0.6216  
-1.0619  -1.2663    0.1445  0.1811  
 0.0600  -0.2569    0.2241  0.2808  
-0.6840  -0.4787    0.1452  0.1820  
 0.2507   0.6593    0.2889  0.3620  
 0.1328  -0.1339    0.1886  0.2364  
-0.2118  -0.0100    0.1427  0.1788  
-0.7496  -1.1437    0.2786  0.3492  
 0.9017   0.0022    0.6361  0.7972  
 0.5560   0.8943    0.2393  0.2999  
-0.1483  -1.1324    0.6959  0.8721  
-1.3194  -0.3915    0.6562  0.8224  
-0.8098  -2.0478    0.8754  1.0971  
-0.3052  -1.1937    0.6282  0.7873  
 0.5170  -0.6323    0.8127  1.0186  
 0.6333  -1.3720    1.4180  1.7772  
-1.5503   0.7194    1.6049  2.0115  
 1.8986  -0.7427    1.8677  2.3408  
 2.3656  -0.3820    1.9428  2.4350  
-1.4987   0.4368    1.3686  1.7153  
-0.5064   1.3950    1.3444  1.6850  
 1.2508   0.6081    0.4545  0.5696  
-0.1696  -0.5459    0.2661  0.3335  
-0.3834  -0.8872    0.3562  0.4465  
 0.0300  -0.8531    0.6244  0.7826  
 0.4210   0.3356    0.0604  0.0757  
 0.0165   2.0690    1.4514  1.8190  
-0.2689   1.5595    1.2929  1.6204  
 1.3385   0.5087    0.5868  0.7354  
 1.1067   0.3987    0.5006  0.6275  
 2.0015  -0.6360    1.8650  2.3374  
-0.4504   0.6166    0.7545  0.9456  
 0.3197  -0.6227    0.6664  0.8352  
-1.2794  -0.9927    0.2027  0.2541  
 1.6603  -0.0543    1.2124  1.5195  
 0.9649  -1.2625    1.5750  1.9739  
-0.3380  -0.2459    0.0652  0.0817  
-0.8612   2.1456    2.1261  2.6647  
 0.4976  -1.0538    1.0970  1.3749  
-0.2007  -1.3870    0.8388  1.0513  
-0.9597   0.6327    1.1260  1.4112  
-2.6118  -0.1505    1.7404  2.1813  
 0.7155  -0.1909    0.6409  0.8033  
 0.0548  -0.2159    0.1914  0.2399  
-0.2775   0.4864    0.5402  0.6770  
-1.2364  -0.0736    0.8222  1.0305  
-0.8868  -0.6960    0.1349  0.1691  
 1.2804  -0.2276    1.0664  1.3365  
 0.5560  -0.9552    1.0686  1.3393  
 0.4643  -0.6173    0.7648  0.9585  
 0.4884  -0.6474    0.8031  1.0066  
 1.3860   0.5479    0.5926  0.7427  
-0.9313   0.5375    1.0386  1.3018  
-0.3466  -0.3809    0.0243  0.0304  
 0.7211  -0.1546    0.6192  0.7760  
-1.4551  -0.1350    0.9334  1.1699  
 0.0673   0.4291    0.2559  0.3207  
 0.3190  -0.1510    0.3323  0.4165  
-1.6514  -0.3824    0.8973  1.1246  
-1.0128  -1.5745    0.3972  0.4978  
-1.2337  -0.7164    0.3658  0.4585  
-1.7677  -1.9776    0.1484  0.1860  
-0.9519  -0.1155    0.5914  0.7412  
 1.1165  -0.6071    1.2188  1.5275  
-1.7772   0.7592    1.7935  2.2478  
 0.1343  -0.0458    0.1273  0.1596  
 0.2270   0.9698    0.5253  0.6583  
-0.1697  -0.5589    0.2752  0.3450  
 2.1011   0.2483    1.3101  1.6420  
-0.0374   0.2988    0.2377  0.2980  
-0.4209   0.5742    0.7037  0.8819  
 1.6728  -0.2046    1.3275  1.6638  
 1.4985  -1.6225    2.2069  2.7659  
 0.5342  -0.5074    0.7365  0.9231  
 0.7119   0.8128    0.0713  0.0894  
 1.0165  -1.2300    1.5885  1.9909  
-0.2646  -0.5301    0.1878  0.2353  
-1.1488  -0.2888    0.6081  0.7621  
-0.4225   0.8703    0.9141  1.1457  
 0.7990  -1.1515    1.3792  1.7286  

 0.0344  -0.1892    0.8188  1.0263  mean E(.)
                    SD pred E(s) pred   
-1.9600  -1.9600   -1.6049 -2.0114    2.5%  theor, est
 1.9600   1.9600    1.6049  2.0114   97.5%  theor, est
                    0.3551 -0.0515    2.5% err
                   -0.3551  0.0515   97.5% err

Przeciągnij suwak w dół, aby zobaczyć podsumowania. Teraz użyłem zwykłego estymatora SD, aby obliczyć 95% przedziały ufności wokół średniej zero, i są one wyłączone o 0,3555 standardowych jednostek odchylenia. Estymator E (s) jest wyłączony tylko o 0,0515 jednostek odchylenia standardowego. Jeśli oszacuje się odchylenie standardowe, błąd standardowy średniej lub statystyki t, może wystąpić problem.

Moje rozumowanie było następujące: średnia populacji, , dwóch wartości może być w dowolnym miejscu w odniesieniu do i zdecydowanie nie znajduje się w , co stanowi absolutną minimalną możliwą sumę podniesiony do kwadratu, tak abyśmy zasadniczo nie docenili , jak następujex 1 x 1 + x 2μx1 σx1+x22σ

wlog niech , a następnie to , najmniej możliwy wynik.Σ n i = 1 ( x i - ˉ x ) 2 2 ( dx2x1=dΣi=1n(xix¯)22(d2)2=d22

Oznacza to, że odchylenie standardowe obliczone jako

SD=Σi=1n(xix¯)2n1 ,

jest tendencyjnym estymatorem odchylenia standardowego populacji ( ). Zauważ, że we wzorze tym zmniejszamy stopnie swobody przez 1 i dzieląc przez , tzn. Dokonujemy pewnej korekty, ale jest ona tylko asymptotycznie poprawna, a byłoby lepszą regułą . Dla naszego przykład wzór dałoby statystycznie niewiarygodne minimalna wartość w gdzie lepszą wartość oczekiwana ( ) byłbyn n - 1 n - 3 / 2 x 2 - x 1 = d SD S D = Dσnn1n3/2x2x1=dSDμˉxsE(s)=SD=d20.707dμx¯sn<10SDσn25n<25n=1000E(s)=π2d2=π2d0.886d. Dla zwykłego obliczenia, dla , s cierpi na bardzo znaczące niedoszacowanie zwane odchyleniem małej liczby , które zbliża się do 1% niedoszacowania gdy wynosi około . Ponieważ wiele eksperymentów biologicznych ma , jest to rzeczywiście problem. Dla błąd wynosi około 25 części na 100 000. Zasadniczo niewielka korekta błędu systematycznego oznacza, że ​​obiektywny estymator standardowego odchylenia populacji dla rozkładu normalnego jestn<10SDσn25n<25n=1000

E(s)=Γ(n12)Γ(n2)Σi=1n(xix¯)22>SD=Σi=1n(xix¯)2n1.

Z Wikipedii w ramach licencji Creative Commons na wspólny użytek przedstawiono wykres niedoszacowania SDσ <a title = "Autor: Rb88guy (praca własna) [CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0) lub GFDL (http://www.gnu.org/copyleft/fdl .html)], za pośrednictwem Wikimedia Commons "href =" https://commons.wikimedia.org/wiki/File%3AStddevc4factor.jpg "> <img width =" 512 "alt =" Stddevc4factor "src =" https: // upload.wikimedia.org/wikipedia/commons/thumb/e/ee/Stddevc4factor.jpg/512px-Stddevc4factor.jpg "/> </a>

Ponieważ SD jest tendencyjnym estymatorem odchylenia standardowego populacji, nie może być to niezależny estymator minimalnej wariancji MVUE odchylenia standardowego populacji, chyba że jesteśmy zadowoleni z powiedzenia, że ​​jest to MVUE jako , czego ja, na przykład, nie jestem.n

Przeczytaj o tym, co dotyczy nietypowych rozkładów i w przybliżeniu obiektywnych .SD

Teraz pojawia się pytanie Q1

Czy można udowodnić, że powyższe to MVUE dla normalnego rozkładu wielkości próby , gdzie jest liczbą całkowitą dodatnią większą niż jeden?σ n nE(s)σnn

Wskazówka: (ale nie odpowiedź) zobacz Jak mogę znaleźć odchylenie standardowe przykładowego odchylenia standardowego od rozkładu normalnego? .

Następne pytanie, Q2

Czy ktoś mógłby mi wyjaśnić, dlaczego używamy skoro jest to wyraźnie stronnicze i wprowadza w błąd? To znaczy, dlaczego nie użyć dla większości wszystkiego? SDE(s)Dodatkowo w poniższych odpowiedziach stało się jasne, że wariancja jest bezstronna, ale jej pierwiastek kwadratowy jest tendencyjny. Prosiłbym, aby odpowiedzi dotyczyły pytania, kiedy należy zastosować obiektywne odchylenie standardowe.

Jak się okazuje, częściową odpowiedzią jest to, że aby uniknąć błędu w powyższej symulacji, wariancje mogły zostać uśrednione, a nie wartości SD. Aby zobaczyć efekt tego, jeśli podniesiemy kwadrat SD powyżej i uśrednimy te wartości, otrzymamy 0,9994, którego pierwiastek kwadratowy jest oszacowaniem odchylenia standardowego 0,9996915, a błąd, dla którego wynosi tylko 0,0006 dla 2,5% ogona i -0.0006 dla 95% ogona. Zauważ, że dzieje się tak, ponieważ wariancje są addytywne, więc uśrednianie ich jest procedurą niskiego błędu. Jednak odchylenia standardowe są tendencyjne, a tam, gdzie nie mamy luksusu wykorzystania wariancji jako pośrednika, nadal potrzebujemy korekty małej liczby. Nawet jeśli możemy użyć wariancji jako pośrednika, w tym przypadku dlan=100, korekta małej próbki sugeruje pomnożenie pierwiastka kwadratowego wariancji bezstronnej 0,9996915 przez 1,002528401, co daje 1,002219148 jako bezstronną ocenę odchylenia standardowego. Tak, więc możemy opóźnić stosowanie korekcji małej liczby, ale czy powinniśmy zatem całkowicie ją zignorować?

Pytanie brzmi, kiedy powinniśmy stosować korektę małych liczb, zamiast ignorować jej użycie, a przede wszystkim unikaliśmy jej użycia.

Oto kolejny przykład: minimalna liczba punktów w przestrzeni, aby ustalić trend liniowy z błędem, wynosi trzy. Jeśli dopasujemy te punkty do zwykłych najmniejszych kwadratów, wynikiem dla wielu takich dopasowań będzie złożony normalny wzór resztkowy, jeśli występuje nieliniowość, a połowa normalnej, jeśli występuje liniowość. W przypadku półnormalnego przypadku nasza średnia rozkładu wymaga korekty małej liczby. Jeśli spróbujemy tej samej sztuczki z 4 lub więcej punktami, rozkład zasadniczo nie będzie normalnie związany ani łatwy do scharakteryzowania. Czy możemy użyć wariancji, aby w jakiś sposób połączyć te 3-punktowe wyniki? Być może nie. Łatwiej jednak wyobrazić sobie problemy dotyczące odległości i wektorów.


Komentarze nie są przeznaczone do rozszerzonej dyskusji; ta rozmowa została przeniesiona do czatu .
whuber

3
P1: Zobacz twierdzenie Lehmanna-Scheffego.
Scortchi - Przywróć Monikę

1
Niezerowe odchylenie estymatora niekoniecznie jest wadą. Na przykład, jeśli chcemy mieć dokładny estymator przy stracie kwadratowej, jesteśmy skłonni wywoływać błąd systematyczny, o ile zmniejsza to wariancję o wystarczająco dużą ilość. Właśnie dlatego (tendencyjne) estymatory regulowane mogą na przykład działać lepiej niż (obiektywny) estymator OLS w modelu regresji liniowej.
Richard Hardy

3
@ Carl wiele terminów jest używanych w różny sposób w różnych obszarach aplikacji. Jeśli publikujesz w grupie statystyk i używasz terminu żargonowego, takiego jak „stronniczość”, naturalnie można by założyć, że używasz określonego znaczenia znaczenia dla statystyki. Jeśli masz na myśli cokolwiek innego, ważne jest, aby użyć innego terminu lub jasno zdefiniować, co rozumiesz przez ten termin przy pierwszym użyciu.
Glen_b

2
„stronniczość” jest z pewnością terminem żargonu - specjalne słowa lub wyrażenia używane w zawodzie lub grupie, które są trudne do zrozumienia dla innych, wydają się w zasadzie czym jest „stronniczość”. Jest tak, ponieważ takie terminy mają precyzyjne, specjalistyczne definicje w obszarach ich zastosowania (w tym definicje matematyczne), co czyni je terminami żargonowymi.
Glen_b

Odpowiedzi:


34

Dla bardziej ograniczonego pytania

Dlaczego zwykle stosuje się stronniczą formułę odchylenia standardowego?

prosta odpowiedź

Ponieważ powiązany estymator wariancji jest bezstronny. Nie ma prawdziwego matematycznego / statystycznego uzasadnienia.

mogą być dokładne w wielu przypadkach.

Jednak nie zawsze tak jest. Istnieją co najmniej dwa ważne aspekty tych zagadnień, które należy zrozumieć.

Po pierwsze, wariancja próbki jest nie tylko bezstronna dla losowych zmiennych Gaussa. Jest bezstronny dla każdego rozkładu ze skończoną wariancją σ 2 (jak omówiono poniżej, w mojej oryginalnej odpowiedzi). Pytanie wskazuje, że s nie jest bezstronne dla σ i sugeruje alternatywę, która jest bezstronna dla losowej zmiennej Gaussa. Jednak ważne jest, aby pamiętać, że w przeciwieństwie do wariancji, odchylenia standardowego jest to nie możliwe, aby mieć „wolne” bezstronnej dystrybucji prognozy (* patrz uwaga poniżej).s2σ2sσ

Po drugie, jak wspomniano w komentarzu przez whuber, fakt, że jest stronniczy, nie wpływa na standardowy „test t”. Najpierw zauważ, że dla zmiennej Gaussa x , jeśli oceniamy z-score z próbki { x i } jako z i = x i - μsx{xi} wtedy będą tendencyjne.

zi=xiμσxix¯s

Jednakże t parametrem jest zwykle stosowany w kontekście rozmieszczenia próbek w . W takim przypadku wynik z wyniósłby z ˉ x = ˉ x - μx¯ chociaż nie możemy obliczyć aniz,anit, ponieważ nie znamyμ. Niemniej jednak, jeślistatystykaz ˉ x byłaby normalna, tostatystykatbędzie podążać za rozkładem Studenta-t. To nie jest na dużąnprzybliżeniem. Jedynym założeniem jest to, żepróbkixsą iid Gaussa.

zx¯=x¯μσx¯x¯μs/n=t
ztμzx¯tnx

(Powszechnie t-test jest stosowany szerzej do możliwie bez Gaussa . Ten sposób polega na dużymi n , który przez centralne limitu zapewnia, że twierdzenie ˉ x nadal będzie Gaussa).xnx¯


* Wyjaśnienie dotyczące „niezależnego estymatora bez dystrybucji”

Przez „wolny od dystrybucji” rozumiem, że estymator nie może zależeć od żadnych informacji o populacji poza próbą { x 1 , , x n } . Przez „nieobciążony” to znaczy, że oczekiwany błąd e [ θ n ] - θ jednolicie zero, niezależnie od wielkości próbki n . (W przeciwieństwie do estymatora, który jest jedynie asymptotycznie bezstronny, czyli „ spójny ”, dla którego odchylenie zanika jako n .)x{x1,,xn}E[θ^n]θnn

W komentarzach to zostało podane jako ewentualnego przykładu „dystrybucja wolne nieobciążonego estymatora”. Abstrahując trochę, to estymator w postaci Ď = F [ S , n , κ x ] , gdzie κ x jest nadmiar kurtozę x . Oszacowanie to nie jest „wolne od dystrybucji”, ponieważ κ x zależy od rozkładu x . Estymator mówi się, że spełniają warunek E [ Ď ] - Ď x = O [ 1σ^=f[s,n,κx]κxxκxx, gdzieσ 2 x jest wariancjąx. Dlatego estymator jest spójny, ale nie (absolutnie) „bezstronny”, jakO[1E[σ^]σx=O[1n]σx2xmoże być dowolnie duży dla małegon.O[1n]n


Uwaga: poniżej znajduje się moja oryginalna „odpowiedź”. Odtąd komentarze dotyczą standardowej średniej i wariancji „próby”, które są „obiektywnymi szacunkami bez dystrybucji” (tzn. Nie przyjmuje się, że populacja jest gaussowska).

To nie jest pełna odpowiedź, ale raczej wyjaśnienie, dlaczego powszechnie stosuje się wzór wariancji próby .

Biorąc pod uwagę losową próbkę , o ile zmienne mają wspólną średnią, estymator ˉ x = 1{x1,,xn}będziebezstronny, tj. E[xi]=μx¯=1nixi

E[xi]=μE[x¯]=μ

Jeśli zmienne mają również wspólną skończoną wariancję i są nieskorelowane , to estymator będzierównieżbędą nieobciążone, czyli E[xIxJ]-μ2={ σ 2 i = j 0 I js2=1n1i(xix¯)2 Zauważ, że bezstronność tych estymatorów zależytylkood powyższych założeń (iliniowościoczekiwań; dowodem jest po prostu algebra). Wynikniezależy od żadnego konkretnego rozkładu, takiego jak Gaussa. Zmienne x i maniemieć wspólną dystrybucję, a nawet nie muszą byćniezależne(czyli próba nie musi byćIID).

E[xixj]μ2={σ2i=j0ijE[s2]=σ2
xi

„Próbki odchylenie standardowe” jest nie nieobciążonym estymatorem, sĎ , ale mimo to jest powszechnie stosowane. Domyślam się, że dzieje się tak po prostu dlatego, że jest to pierwiastek kwadratowy obiektywnej wariancji próbki. (Bez bardziej wyrafinowanego uzasadnienia.)ssσ

W przypadku próbki IID Gaussa, z maksimum oszacowania prawdopodobieństwa (MLE) parametrów są μ M L E = ˉ x i ( σ 2 ) M L E = n - 1μ^MLE=x¯, tzn. wariancja dzieli się przeznzamiastn2. Co więcej, w przypadku iid Gaussa odchylenie standardowe MLE jest tylko pierwiastkiem kwadratowym wariancji MLE. Jednak te formuły, jak również wskazane w twoim pytaniu, zależą od założenia Gaussa iid.(σ^2)MLE=n1ns2nn2


Aktualizacja: dodatkowe wyjaśnienie dotyczące „stronniczego” vs. „obiektywnego”.

Rozważ próbkę elementową jak powyżej, X = { x 1 , , x n } , z odchyleniem suma-kwadrat δ 2 n = i ( x i - ˉ x ) 2 Biorąc pod uwagę założenia przedstawione w pierwszej części powyżej , koniecznie mamy E [ δ 2 n ] = ( n - 1 ) σ 2, więc estymator (Gaussa) MLE jest tendencyjny ^ σ 2nX={x1,,xn}

δn2=i(xix¯)2
E[δn2]=(n1)σ2
podczas gdy estymator „wariancji próbki” jest obiektywny s 2 n =1
σn2^=1nδn2E[σn2^]=n1nσ2
sn2=1n1δn2E[sn2]=σ2

Teraz prawdą jest, że staje się mniej tendencyjny wraz ze wzrostem wielkości próby n . Jednak s 2 n ma zerową stronniczość bez względu na wielkość próbki (o ile n > 1 ). Dla obu estymatorów wariancja ich rozkładu próbkowania będzie niezerowa i będzie zależeć od n .σn2^nsn2n>1n

Przykładowo poniższy kod Matlaba rozważa eksperyment z próbkami ze standardowej populacji normalnej z . Aby oszacować rozkłady próbkowania dla ˉ x , ^ σ 2 , s 2 , eksperyment powtarza się N = 10 6 razy. (Możesz wyciąć i wkleić kod tutaj, aby go wypróbować.)n=2zx¯,σ2^,s2N=106

% n=sample size, N=number of samples
n=2; N=1e6;
% generate standard-normal random #'s
z=randn(n,N); % i.e. mu=0, sigma=1
% compute sample stats (Gaussian MLE)
zbar=sum(z)/n; zvar_mle=sum((z-zbar).^2)/n;
% compute ensemble stats (sampling-pdf means)
zbar_avg=sum(zbar)/N, zvar_mle_avg=sum(zvar_mle)/N
% compute unbiased variance
zvar_avg=zvar_mle_avg*n/(n-1)

Typowe wyjście jest jak

zbar_avg     =  1.4442e-04
zvar_mle_avg =  0.49988
zvar_avg     =  0.99977

potwierdzając, że

E[z¯](z¯)¯μ=0E[s2](s2)¯σ2=1E[σ2^](σ2^)¯n1nσ2=12

Aktualizacja 2: Uwaga na temat zasadniczo „algebraicznej” natury bezstronności.

W powyższej demonstracji numerycznej kod przybliża prawdziwe oczekiwanie Stosując średnio zespołu o N = 10 6 powtórzeń eksperymentu (każdy jest próbka o wymiarach n = 2 ). Nawet przy tak dużej liczbie typowe wyniki podane powyżej są dalekie od dokładności.E[]N=106n=2

Aby liczbowo wykazać, że estymatory są naprawdę obiektywne, możemy zastosować prostą sztuczkę, aby przybliżyć przypadek : wystarczy dodać następujący kod do koduN

% optional: "whiten" data (ensure exact ensemble stats)
[U,S,V]=svd(z-mean(z,2),'econ'); z=sqrt(N)*U*V';

(umieszczanie po „wygeneruj losowe # standardowe” i przed „oblicz przykładowe statystyki”)

Dzięki tej prostej zmianie nawet uruchomienie kodu z daje wyniki podobne doN=10

zbar_avg     =  1.1102e-17
zvar_mle_avg =  0.50000
zvar_avg     =  1.00000

3
@amoeba Cóż, zjem swój kapelusz. Obliczyłem wartości SD w każdej linii, a następnie je uśredniłem, a one wydają się obiektywne (0,9994), podczas gdy same wartości SD nie. To znaczy, że ty i GeoMatt22 macie rację, a ja się mylę.
Carl

2
@Carl: Ogólnie prawdą jest, że przekształcenie obiektywnego estymatora parametru nie daje obiektywnego oszacowania przekształconego parametru, z wyjątkiem sytuacji, gdy transformacja jest afiniczna, wynikająca z liniowości oczekiwań. Więc w jakiej skali bezstronność jest dla Ciebie ważna?
Scortchi - Przywróć Monikę

4
Carl: Przepraszam, jeśli uważasz, że moja odpowiedź była ortogonalna na twoje pytanie. Jego celem było zapewnienie wiarygodnego wyjaśnienia pytania: „dlaczego zwykle stosuje się tendencyjną odchylenie standardowe?” Odp .: „po prostu dlatego, że powiązany estymator wariancji jest bezstronny, w porównaniu z jakimkolwiek rzeczywistym uzasadnieniem matematycznym / statystycznym ”. Co do komentarza, zazwyczaj „bezstronny” opisuje estymator, którego oczekiwana wartość jest poprawna niezależnie od wielkości próby. Jeśli jest bezstronny tylko w odniesieniu do limitu nieskończonej wielkości próbki, zwykle nazywa się to „ spójnym ”.
GeoMatt22,

3
(+1) Dobra odpowiedź. Małe zastrzeżenie: ten fragment Wikipedii na temat spójności cytowany w tej odpowiedzi jest trochę bałaganem, a związane z nim nawiasy są potencjalnie mylące. „Spójność” i „asymptotyczna bezstronność” są w pewnym sensie ortogonalnymi właściwościami estymatora. Aby uzyskać więcej informacji na ten temat, zobacz wątek komentarza do tej odpowiedzi .
kardynał

3
+1 but I think @Scortchi makes a really important point in his answer that is not mentioned in yours: namely, that even for Gaussian population, the unbiased estimate of σ has higher expected error than the standard biased estimate of σ (due to the high variance of the former). This is a strong argument in favour of not using an unbiased estimator even if one knows that the underlying distribution is Gaussian.
amoeba says Reinstate Monica

15

The sample standard deviation S=(XX¯)2n1 is complete and sufficient for σ so the set of unbiased estimators of σk given by

(n1)k22k2Γ(n12)Γ(n+k12)Sk=Skck

(See Why is sample standard deviation a biased estimator of σ?) are, by the Lehmann–Scheffé theorem, UMVUE. Consistent, though biased, estimators of σk can also be formed as

σ~jk=(Sjcj)kj

(the unbiased estimators being specified when j=k). The bias of each is given by

Eσ~jkσk=(ckcjkj1)σk

& its variance by

Varσ~jk=Eσ~j2k(Eσ~jk)2=c2kck2cj2kjσ2k

For the two estimators of σ you've considered, σ~11=Sc1 & σ~21=S, the lack of bias of σ~1 is more than offset by its larger variance when compared to σ~2:

Eσ~1σ=0Eσ~2σ=(c11)σVarσ~1=Eσ~12(Eσ~11)2=c2c12c12σ2=(1c121)σ2Varσ~2=Eσ~12(Eσ~2)2=c2c12c2σ2=(1c12)σ2
(Note that c2=1, as S2 is already an unbiased estimator of σ2.)

Plot showing contributions of bias & variance to MSE at sample sizes from one to 20 for the two estimators

The mean square error of akSk as an estimator of σ2 is given by

(EakSkσk)2+E(akSk)2(EakSk)2=[(akck1)2+ak2c2kak2ck2]σ2k=(ak2c2k2akck+1)σ2k

& therefore minimized when

ak=ckc2k

, allowing the definition of another set of estimators of potential interest:

σ^jk=(cjSjc2j)kj

Curiously, σ^11=c1S, so the same constant that divides S to remove bias multiplies S to reduce MSE. Anyway, these are the uniformly minimum variance location-invariant & scale-equivariant estimators of σk (you don't want your estimate to change at all if you measure in kelvins rather than degrees Celsius, & you want it to change by a factor of (95)k if you measure in Fahrenheit).

None of the above has any bearing on the construction of hypothesis tests or confidence intervals (see e.g. Why does this excerpt say that unbiased estimation of standard deviation usually isn't relevant?). And σ~jk & σ^jk exhaust neither estimators nor parameter scales of potential interest—consider the maximum-likelihood estimator n1nS, or the median-unbiased estimator n1χn12(0.5)S; or the geometric standard deviation of a lognormal distribution eσ. It may be worth showing a few more-or-less popular estimates made from a small sample (n=2) together with the upper & lower bounds, (n1)s2χn12(α) & (n1)s2χn12(1α), of the equal-tailed confidence interval having coverage 1α:

confidence distribution for $\sigma$ showing estimates

The span between the most divergent estimates is negligible in comparison with the width of any confidence interval having decent coverage. (The 95% C.I., for instance, is (0.45s,31.9s).) There's no sense in being finicky about the properties of a point estimator unless you're prepared to be fairly explicit about what you want you want to use it for—most explicitly you can define a custom loss function for a particular application. A reason you might prefer an exactly (or almost) unbiased estimator is that you're going to use it in subsequent calculations during which you don't want bias to accumulate: your illustration of averaging biased estimates of standard deviation is a simple example of such (a more complex example might be using them as a response in a linear regression). In principle an all-encompassing model should obviate the need for unbiased estimates as an intermediate step, but might be considerably more tricky to specify & fit.

† The value of σ that makes the observed data most probable has an appeal as an estimate independent of consideration of its sampling distribution.


7

Q2: Would someone please explain to me why we are using SD anyway as it is clearly biased and misleading?

This came up as an aside in comments, but I think it bears repeating because it's the crux of the answer:

The sample variance formula is unbiased, and variances are additive. So if you expect to do any (affine) transformations, this is a serious statistical reason why you should insist on a "nice" variance estimator over a "nice" SD estimator.

In an ideal world, they'd be equivalent. But that's not true in this universe. You have to choose one, so you might as well choose the one that lets you combine information down the road.

Comparing two sample means? The variance of their difference is sum of their variances.
Doing a linear contrast with several terms? Get its variance by taking a linear combination of their variances.
Looking at regression line fits? Get their variance using the variance-covariance matrix of your estimated beta coefficients.
Using F-tests, or t-tests, or t-based confidence intervals? The F-test calls for variances directly; and the t-test is exactly equivalent to the square root of an F-test.

In each of these common scenarios, if you start with unbiased variances, you'll remain unbiased all the way (unless your final step converts to SDs for reporting).
Meanwhile, if you'd started with unbiased SDs, neither your intermediate steps nor the final outcome would be unbiased anyway.


Variance is not a distance measurement, and standard deviation is. Yes, vector distances add by squares, but the primary measurement is distance. The question was what would you use corrected distance for, and not why should we ignore distance as if it did not exist.
Carl

Well, I guess I'm arguing that "the primary measurement is distance" isn't necessarily true. 1) Do you have a method to work with unbiased variances; combine them; take the final resulting variance; and rescale its sqrt to get an unbiased SD? Great, then do that. If not... 2) What are you going to do with a SD from a tiny sample? Report it on its own? Better to just plot the datapoints directly, not summarize their spread. And how will people interpret it, other than as an input to SEs and thus CIs? It's meaningful as an input to CIs, but then I'd prefer the t-based CI (with usual SD).
civilstat

I do no think that many clinical studies or commercial software programs with n<25 would use standard error of the mean calculated from small sample corrected standard deviation leading to a false impression of how small those errors are. I think even that one issue, even if that is the only one, should be ignored.
Carl

"so you might as well choose the one that lets you combine information down the road" and "the primary measurement is distance" isn't necessarily true. Farmer Jo's house is 640 acres down the road? One uses the appropriate measurement correctly for each and every situation, or one has a higher tolerance for false witness than I. My only question here is when to use what, and the answer to it is not "never."
Carl

1

This post is in outline form.

(1) Taking a square root is not an affine transformation (Credit @Scortchi.)

(2) var(s)=E(s2)E(s)2, thus E(s)=E(s2)var(s)var(s)

(3) var(s)=Σi=1n(xix¯)2n1, whereas E(s)=Γ(n12)Γ(n2)Σi=1n(xix¯)22Σi=1n(xix¯)2n1=var(s)

(4) Thus, we cannot substitute var(s) for E(s), for n small, as square root is not affine.

(5) var(s) and E(s) are unbiased (Credit @GeoMatt22 and @Macro, respectively).

(6) For non-normal distributions x¯ is sometimes (a) undefined (e.g., Cauchy, Pareto with small α) and (b) not UMVUE (e.g., Cauchy ( Student's-t with df=1), Pareto, Uniform, beta). Even more commonly, variance may be undefined, e.g. Student's-t with 1df2. Then one can state that var(s) is not UMVUE for the general case distribution. Thus, there is then no special onus to introducing an approximate small number correction for standard deviation, which likely has similar limitations to var(s), but is additionally less biased, σ^=1n1.514γ2i=1n(xix¯)2 ,

where γ2 is excess kurtosis. In a similar vein, when examining a normal squared distribution (a Chi-squared with df=1 transform), we might be tempted to take its square root and use the resulting normal distribution properties. That is, in general, the normal distribution can result from transformations of other distributions and it may be expedient to examine the properties of that normal distribution such that the limitation of small number correction to the normal case is not so severe a restriction as one might at first assume.

For the normal distribution case:

A1: By Lehmann-Scheffe theorem var(s) and E(s) are UMVUE (Credit @Scortchi).

A2: (Edited to adjust for comments below.) For n25, we should use E(s) for standard deviation, standard error, confidence intervals of the mean and of the distribution, and optionally for z-statistics. For t-testing we would not use the unbiased estimator as X¯μvar(n)/n itself is Student's-t distributed with n1 degrees of freedom (Credit @whuber and @GeoMatt22). For z-statistics, σ is usually approximated using n large for which E(s)var(n) is small, but for which E(s) appears to be more mathematically appropriate (Credit @whuber and @GeoMatt22).


2
A2 is incorrect: following that prescription would produce demonstrably invalid tests. As I commented to the question, perhaps too subtly: consult any theoretical account of a classical test, such as the t-test, to see why a bias correction is irrelevant.
whuber

2
There's a strong meta-argument showing why bias correction for statistical tests is a red herring: if it were incorrect not to include a bias-correction factor, then that factor would already be included in standard tables of the Student t distribution, F distribution, etc. To put it another way: if I'm wrong about this, then everybody has been wrong about statistical testing for the last century.
whuber

1
Am I the only one who's baffled by the notation here? Why use E(s) to stand for Γ(n12)Γ(n2)Σi=1n(xix¯)22, the unbiased estimate of standard deviation? What's s?
Scortchi - Reinstate Monica

2
@Scortchi the notation apparently came about as an attempt to inherit that used in the linked post. There s is the sample variance, and E(s) is the expected value of s for a Gaussian sample. In this question, "E(s)" was co-opted to be a new estimator derived from the original post (i.e. something like σ^s/α where αE[s]/σ). If we arrive at a satisfactory answer for this question, probably a cleanup of the question & answer notation would be warranted :)
GeoMatt22

2
The z-test assumes the denominator is an accurate estimate of σ. It's known to be an approximation that is only asymptotically correct. If you want to correct it, don't use the bias of the SD estimator--just use a t-test. That's what the t-test was invented for.
whuber

0

I want to add the Bayesian answer to this discussion. Just because your assumption is that the data is generated according to some normal with unknown mean and variance, that doesn't mean that you should summarize your data using a mean and a variance. This whole problem can be avoided if you draw the model, which will have a posterior predictive that is a three parameter noncentral scaled student's T distribution. The three parameters are the total of the samples, total of the squared samples, and the number of samples. (Or any bijective map of these.)

Incidentally, I like civilstat's answer because it highlights our desire to combine information. The three sufficient statistics above are even better than the two given in the question (or by civilstat's answer). Two sets of these statistics can easily be combined, and they give the best posterior predictive given the assumption of normality.


How then does one calculate an unbiased standard error of the mean from those three sufficient statistics?
Carl

@carl You can easily calculate it since you have the number of samples n, you can multiply the uncorrected sample variance by nn1. However, you really don't want to do that. That's tantamount to turning your three parameters into a best fit normal distribution to your limited data. It's a lot better to use your three parameters to fit the true posterior predictive: the noncentral scaled T distribution. All questions you might have (percentiles, etc.) are better answered by this T distribution. In fact, T tests are just common sense questions asked of this distribution.
Neil G

How can one then generate a true normal distribution RV from Monte Carlo simulations(s) and recover that true distribution using only Student's-t distribution parameters? Am I missing something here?
Carl

@Carl The sufficient statistics I described were the mean, second moment, and number of samples. Your MLE of the original normal are the mean and variance (which is equal to the second moment minus the squared mean). The number of samples is useful when you want to make predictions about future observations (for which you need the posterior predictive distribution).
Neil G

Though a Bayesian perspective is a welcome addition, I find this a little hard to follow: I'd have expected a discussion of constructing a point estimate from the posterior density of σ. It seems you're rather questioning the need for a point estimate: this is something well worth bringing up, but not uniquely Bayesian. (BTW you also need to explain the priors.)
Scortchi - Reinstate Monica
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.