Intuicyjne wyjaśnienie dzielenia przez


136

W klasie zostałem dzisiaj zapytany, dlaczego dzielisz sumę błędu kwadratowego przez zamiastnn1n przy obliczaniu odchylenia standardowego dzielisz .

Powiedziałem, że nie będę odpowiadać na to w klasie (ponieważ nie chciałem dokonywać obiektywnych szacunków), ale później zastanawiałem się - czy jest na to intuicyjne wyjaśnienie ?!


29
Chciałbym zacytować tego zingera z książki Przepisy numeryczne : „... jeśli różnica między i kiedykolwiek ma dla ciebie znaczenie, prawdopodobnie i tak nie masz nic dobrego - np. Próbujesz uzasadnić wątpliwą hipotezę z marginalnymi danymi ”. n - 1nn1
JM nie jest statystykiem

11
naprawdę eleganckie, intuicyjne wyjaśnienie jest przedstawione tutaj (poniżej dowodu) en.wikipedia.org/wiki/… Podstawową ideą jest to, że twoje obserwacje będą naturalnie bliższe średniej próbki niż średniej populacji.
WetlabStudent

12
@ Tal, dlatego szkoły są do kitu. Ich zapytać „dlaczego to ?”, A oni odpowiedzieć „po prostu zapamiętać”.
Pacerier

1
Jeśli szukasz intuicyjnego wyjaśnienia, powinieneś zobaczyć powód, pobierając próbki! Obserwuj to, dokładnie odpowiada ci pytanie. youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary

tl; dr: (od najwyższej odpowiedzi :) „... odchylenie standardowe, które jest obliczane na podstawie odchyleń od średniej próbki, nie docenia pożądanego odchylenia standardowego populacji ...” Zobacz także: en.wikipedia.org/wiki/... Tak więc, chyba że masz ochotę obliczyć coś nieco złożonego, po prostu użyj n-1, jeśli jest to próbka.
Andrew

Odpowiedzi:


99

Odchylenie standardowe obliczone za pomocą dzielnika jest odchyleniem standardowym obliczonym z próby jako oszacowanie standardowego odchylenia populacji, z której pobrano próbkę. Ponieważ obserwowane wartości spadają średnio bliżej średniej próby niż średniej populacji, odchylenie standardowe, które jest obliczane na podstawie odchyleń od średniej próby, nie docenia pożądanego odchylenia standardowego populacji. Zastosowanie zamiast jako dzielnika poprawia to, zwiększając nieco wynik.n - 1 nn1n1n

Należy pamiętać, że korekcja ma większy efekt proporcjonalny, gdy n jest małe niż gdy jest duże, co jest tym, czego chcemy, ponieważ gdy n jest większe, średnia próbki prawdopodobnie będzie dobrym estymatorem średniej populacji.

Gdy próbka jest całą populacją, używamy odchylenia standardowego ze jako dzielnikiem, ponieważ średnia próby wynosin średnia populacji.

(Zauważam w nawiasach, że nic, co zaczyna się od „drugiej chwili wokół znanego, określonego środka” nie spełni prośby pytającego o intuicyjne wyjaśnienie).


13
Nie mylmy „intuicyjnego” z „nietechnicznym”.
whuber

32
@Michael, to nie wyjaśnia, dlaczego używamy n−1zamiast n−2(a nawet n−3)?
Pacerier

1
@Pacerier Spójrz na odpowiedź Whubera poniżej, aby uzyskać szczegółowe informacje na ten temat. Zasadniczo korekta to n-1, a nie n-2 itd., Ponieważ korekcja n-1 daje wyniki, które są bardzo zbliżone do tego, czego potrzebujemy. Dokładniejsze poprawki są pokazane tutaj: en.wikipedia.org/wiki/Niezależne_estimation___standard_deviation
Michael Lew

1
Cześć @Michael, więc dlaczego odchylenie obliczone ze średniej próby jest zwykle mniejsze niż średnia populacji?
Allen

1
„Ponieważ obserwowane wartości spadają średnio bliżej średniej próby niż średniej populacji, odchylenie standardowe, które jest obliczane na podstawie odchyleń od średniej próby, nie docenia pożądanego odchylenia standardowego populacji”. Dlaczego średnia próbki zawsze jest niedoceniana? Co jeśli to przecenia?
Bora M. Alper,

55

Powszechną jest to, że definicja wariancji (rozkładu) jest drugim momentem ostatnio znanym wokół znanej, określonej średniej, podczas gdy estymator wykorzystuje oszacowaną średnią. Ta utrata stopnia swobody (biorąc pod uwagę średnią, można odtworzyć zestaw danych ze znajomością tylko wartości danych) wymaga użycia zamiast do „dostosowania” wyniku.n - 1 nn1n1n

Takie wyjaśnienie jest zgodne z szacowanymi wariancjami analizy ANOVA i analizy składników wariancji. To naprawdę wyjątkowy przypadek.

Potrzeba, aby pewne korekty, które nadmuchuje wariancji może, moim zdaniem, być intuicyjnie oczywiste przy pomocy ważnego argumentu, który nie jest tylko ex post facto ręcznie macha. (Przypominam sobie, że Student mógł wysunąć taki argument w swoim teście z 1908 r. Na temat testu t). Dlaczego dostosowanie wariancji powinno być dokładnie współczynnikiem jest trudniejsze do uzasadnienia, szczególnie biorąc pod uwagę że skorygowana SD nie jest obiektywnym estymatorem. (Jest to jedynie pierwiastek kwadratowy z bezstronnego estymatora wariancji. Bycie bezstronnym zwykle nie przetrwa transformacji nieliniowej.) Tak więc, w rzeczywistości, prawidłowe dopasowanie SD w celu usunięcia jego odchylenia wcale nie jest czynnikiem !n/(n1)n/(n1)

Niektóre podręczniki wprowadzające nawet nie zawracają sobie głowy wprowadzaniem skorygowanego SD: uczą jednej formuły (dzielą przez ). Po raz pierwszy zareagowałem negatywnie na to, kiedy uczyłem z takiej książki, ale doceniłem mądrość: aby skupić się na koncepcjach i zastosowaniach, autorzy usunęli wszystkie nieistotne matematyczne subtelności. Okazuje się, że nic nie jest zranione i nikt nie jest wprowadzany w błąd.n


1
Dziękuję Whuber. Muszę uczyć uczniów z korektą n-1, więc dzielenie się w n nie jest opcją. Jak napisano przede mną, wspomnienie o połączeniu z drugą chwilą nie wchodzi w grę. Chociaż wspominając już o tym, jak oszacowano już średnią, pozostawiając nam mniej „danych” dla sd - to ważne. Jeśli chodzi o stronniczość SD - przypomniałem sobie, że ją spotkałem - dziękuję za odwiedzenie tego punktu do domu. Najlepszy, Tal
Tal Galili

3
@ Tal Pisałem w twoim języku, nie w języku twoich uczniów, ponieważ jestem pewien, że jesteś w stanie przetłumaczyć go na wszystko, co wiesz, że do nich dotrze. Innymi słowy, interpretować „intuicyjny” w swoim pytaniu oznacza intuicyjne ciebie .
whuber

1
Cześć Whuber. Dziękujemy za wotum zaufania :). Utrata stopnia swobody przy szacowaniu oczekiwań jest tym, o którym myślałam w klasie. Problem polega na tym, że sama koncepcja „stopni swobody” wymaga wiedzy / intuicji. Ale połączenie go z niektórymi innymi odpowiedziami podanymi w tym wątku będzie przydatne (dla mnie i mam nadzieję, że inni w przyszłości). Najlepszy, Tal
Tal Galili

W przypadku dużych zwykle nie ma dużej różnicy między dzieleniem przez lub , więc byłoby możliwe wprowadzenie nieskorygowanej formuły, pod warunkiem, że miała ona dotyczyć dużych próbek, prawda? n n - 1nnn1
PatrickT

1
@Patrick Być może czytałeś za dużo na moją odpowiedź, ponieważ jest to jednoznaczne z przyczyn: są pedagogiczne i nie mają nic wspólnego z tym, czy jest duże, czy nie. n
whuber

50

Z definicji wariancję oblicza się, biorąc sumę kwadratów różnic od średniej i dzieląc przez rozmiar. Mamy ogólną formułę

gdzieμjest średnią, aNjest wielkością populacji.σ2=iN(Xiμ)2NμN

Zgodnie z tą definicją wariancję próbki (np. Próbki ) należy również obliczyć w ten sposób.t

gdzie ¯ X jest średnią, anjest rozmiarem tej małej próbki.σt2=in(XiX¯)2nX¯n

Jednak przez wariancję próby rozumiemy estymator wariancji populacji σ 2 . Jak możemy oszacować σ 2 tylko przy użyciu wartości z próbki?S2σ2σ2

Zgodnie z powyższymi wzorami zmienna losowa odbiega od średniej próbki ¯ X z wariancją σ 2 t . Średnia próbki ¯ X również odbiega od μ z wariancją σ 2XX¯σt2X¯μ ponieważ średnia próbki otrzymuje różne wartości od próbki do próbki i jest to zmienna losowa o średniejμi wariancjiσ2σ2nμ . (Można to łatwo udowodnić.)σ2n

Dlatego w przybliżeniu powinno odchylać się od μ z wariancją, która obejmuje dwie wariancje, więc zsumuj te dwie i otrzymaj σ 2 = σ 2 t + σ 2Xμ . Rozwiązując to, otrzymujemyσ2=σ 2 t ×nσ2=σt2+σ2n . Zastąpienieσ 2 t daje nasz estymator wariancji populacji:σ2=σt2×nn1σt2

.S2=in(XiX¯)2n1

Można również udowodnić, że jest prawdą.E[S2]=σ2


Mam nadzieję, że nie jest to zbyt trywialne: czy faktem jest, że średnia próbki jest zbieżna do ND ( , σμ ) gdy n staje się dowolnie duży, powód, dla którego średnia próbki odbiega od średniej rzeczywistej z wariancjąσ2σn ? σ2n
RexYuan

6
Jest to lepsze wytłumaczenie niż inne, ponieważ pokazuje równania i pochodne zamiast po prostu używać yagga yagga z terminami statystycznymi.
Nav

1
@sevenkul, czy możemy w jakiś sposób zobaczyć to wizualnie? kiedy mówicie, X powinien odchylać się od przy tej wariancji netto, jestem zagubiony w wizualizacji tegoμ
Parthiban Rajendran

17

Jest to całkowita intuicja, ale najprostszą odpowiedzią jest korekta wprowadzona, aby standardowe odchylenie próbki jednoelementowej było niezdefiniowane, a nie 0.


11
Dlaczego więc nie użyć lub nawet1nn21 jako poprawki? :-)1exp(1)exp(1/n)
whuber

1
@whuber Parsimony (-;

4
jest jeszcze bardziej „oszczędny”. :-)1n1
whuber

2
@mbq, Jeśli chodzi o twoją odpowiedź ~ "to korekta wprowadzona w celu niezdefiniowania standardowego odchylenia próbki jednego elementu zamiast 0", czy to naprawdę powód, czy to żart? Wiesz, że nie-matherowie tacy jak my nie mogą powiedzieć.
Pacerier

4
Formalnie jest to konsekwencja, a nie powód, ale, jak napisałem, uważam za dobrą intencję zapamiętanie tego.

14

Możesz uzyskać głębsze zrozumienie terminu dzięki samej geometrii, nie tylko dlaczego nie jest to n, ale dlaczego przybiera on dokładnie tę formę, ale być może będziesz musiał najpierw zbudować swoją intuicję, aby poradzić sobie z geometrią n- wymiarową. Stamtąd jednak jest to mały krok do głębszego zrozumienia stopni swobody w modelach liniowych (tj. Model df i resztkowy df). Myślę, że nie ma wątpliwości, że Fisher myślał w ten sposób. Oto książka, która stopniowo ją buduje:n1nn

Saville DJ, Wood GR. Metody statystyczne: podejście geometryczne . 3. edycja Nowy Jork: Springer-Verlag; 1991. 560 stron. 9780387975177

(Tak, 560 stron. Powiedziałem stopniowo.)


Dzięki onestop - nie sądziłem, że będzie odpowiedź z tego kierunku. Jest jakiś sposób na podsumowanie intuicji, czy też nie jest to możliwe? Pozdrawiam, Tal
Tal Galili

Nie mogłem tego zrobić sam, ale recenzent książki podsumował to podejście w akapicie w Amer. Stat. w 1993: jstor.org/stable/2684984 . Nie jestem pewien, czy to praktyczne zastosowanie tego podejścia z uczniami, chyba że zastosujesz je w całym kursie.
onestop

Czy możesz streścić nieco intuicję, a nie tylko odniesienie do książki?
oliversm

12

Estymator wariancji populacji jest tendencyjny po zastosowaniu na próbce populacji. Aby skorygować to obciążenie, należy podzielić przez n-1 zamiast n. Można matematycznie wykazać, że estymator wariancji próbki jest bezstronny, gdy dzielimy przez n-1 zamiast n. Formalny dowód znajduje się tutaj:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

Początkowo przypuszczam, że to matematyczna poprawność doprowadziła do wzoru. Jeśli jednak chcemy dodać do formuły intuicję, wspomniane już sugestie wydają się rozsądne.

Po pierwsze, obserwacje próbki są średnio bliższe średniej próby niż średniej populacji. Estymator wariancji wykorzystuje średnią próby i w konsekwencji nie docenia prawdziwej wariancji populacji. Dzielenie przez n-1 zamiast n poprawia to odchylenie.

Ponadto, dzielenie przez n-1 powoduje, że wariancja próbki z jednym elementem nie jest zdefiniowana, a nie zero.


12

Dlaczego dzielimy przez zamiast n ? Ponieważ jest to zwyczajowe i prowadzi do obiektywnego oszacowania wariancji. Powoduje to jednak tendencyjne (niskie) oszacowanie odchylenia standardowego, co można zaobserwować, stosując nierówność Jensena do funkcji wklęsłej, pierwiastka kwadratowego.n1n

Co jest takiego wspaniałego w posiadaniu obiektywnego estymatora? Niekoniecznie minimalizuje średni błąd kwadratowy. MLE dla rozkładu normalnego dzieli się przez zamiast n - 1 . Naucz swoich uczniów myślenia, zamiast regurgitacji i bezmyślnego stosowania przestarzałych pojęć sprzed stu lat.nn1


8
(+1) Im więcej myślę o tej sytuacji (i zastanowiłem się nad nią, do tego stopnia, że ​​zbadałem wcześniejsze prace, takie jak wkład Biometrica Studenta z 1908 roku, aby spróbować wyśledzić, kiedy i dlaczego pojawił się ), tym bardziej myślę, że „ponieważ jest to zwyczajowe” to jedyna możliwa poprawna odpowiedź. Jestem niezadowolony z powodu opinii przegłosowanych i mogę jedynie zgadywać, że odpowiadają na ostatnie zdanie, co można łatwo uznać za atakujące OP, chociaż wątpię, by to był twój zamiar. n1
whuber

1
Moje ostatnie zdanie było przyjazną radą dla wszystkich zainteresowanych, w przeciwieństwie do ataku na PO.
Mark L. Stone,

W przypadku większego wykorzystania nie będzie to miało znaczenia, w przypadku testów lub przedziałów ufności należałoby dopasować inne części procedury i ostatecznie uzyskać ten sam wynik!
kjetil b halvorsen

8

Jest dobrze znane (lub łatwo udowodnione), że kwadratowe ma ekstremum przy z = - βαz2+2βz+γ . To pokazuje, że dla dowolnejliczbynliczb rzeczywistychx1,x2,,xn, ilość G(a)= n i=1(xi-a)2=( n i = 1 x 2 i )-2a( n i = 1 xi)+nz=βαnx1,x2,,xn ma wartość minimalną, gdy a = 1

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
.a=1ni=1nxi=x¯

Teraz załóżmy, że są próbka rozmiar n z rozkładu o nieznanej średniej ľ i nieznanej wariancji Ď 2 . Możemy oszacować μ jako 1xinμσ2μ co jest dość łatwe do obliczenia, ale próba oszacowaniaσ2 jako11ni=1nxi=x¯σ2napotyka problem, którego nie znamyμ. Możemy oczywiście łatwo obliczyć G( ˉ x )i wiemy, żeG(μ)G( ˉ x ), ale o ile większy jestG(μ)? Odpowiedź jest taka, że G(μ)1ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)jest większy niż o współczynnik około nG(x¯) , to znaczy G ( μ ) nnn1a więcoszacowanien-1G(μ)=1

(1)G(μ)nn1G(x¯)
dla wariancji rozkładu można aproksymować o 1n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

(1)

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμ(xiμ)(xjμ)(3)1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
Tylko przy tej wymianie stosu byłoby to kiedykolwiek uważane za intuicyjną odpowiedź.
Joseph Garvin

6

(xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

XY

V(X)=E((XY)22)=E((XE(X))2).

Przejście od definicji losowej zmiennej wariancji do definicji wariancji próbki jest kwestią oszacowania oczekiwanego środka, który można uzasadnić filozoficzną zasadą typowości: próbka jest typowym przedstawieniem rozkładu. (Uwaga: jest to związane, ale nie to samo, co oszacowanie chwilowe).


2
V(X)=E((XY)22)=E((XE(X))2)

4
(xixi)2s2nn1
whuber

4

N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

yxyN1=0

0d+1dd+1


Nie jest jasne, dlaczego „nieskończona wariancja byłaby efektem bardziej dźwięcznym” niż wariancja zerowa. Rzeczywiście wydaje się, że używasz „wariancji próbki” w sensie estymatora wariancji , co jest jeszcze bardziej mylące.
whuber

1
0<

4

Za sugestią Whucera odpowiedź została skopiowana z innego podobnego pytania .

Korekcję Bessela przyjmuje się w celu skorygowania błędu systematycznego przy użyciu wariancji próbki jako estymatora prawdziwej wariancji. Odchylenie w nieskorygowanej statystyce występuje, ponieważ średnia próbki jest bliżej środka obserwacji niż średnia prawdziwa, a zatem kwadratowe odchylenia wokół średniej próbki systematycznie nie doceniają kwadratowych odchyleń wokół prawdziwej średniej.

S2n

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

Biorąc oczekiwania daje:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

σ2n1


Dzięki za dowód!
poprawa

0

Zasadniczo użycie „n” w mianowniku daje mniejsze wartości niż wariancja populacji, którą chcemy oszacować. Dzieje się tak zwłaszcza, gdy pobierane są małe próbki. W języku statystyki mówimy, że wariancja próby zapewnia „tendencyjne” oszacowanie wariancji populacji i należy ją uczynić „bezstronną”.

Jeśli szukasz intuicyjnego wyjaśnienia, powinieneś pozwolić swoim uczniom zobaczyć powód dla siebie, pobierając próbki! Obejrzyj to, dokładnie odpowiada na twoje pytanie.

https://www.youtube.com/watch?v=xslIhnquFoE


0

X¯=1ni=1nXiS2=1n1i=1n(XiX¯)2n1

Aby odpowiedzieć na to pytanie, musimy wrócić do definicji obiektywnego estymatora. Bezstronny estymator to taki, którego oczekiwanie zmierza do prawdziwego oczekiwania. Średnia próbki jest obiektywnym estymatorem. Aby zobaczyć dlaczego:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

Spójrzmy na oczekiwanie wariancji próbki,

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

X¯E[X¯2]n1

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

nn1n1S2


3
S

-1

μσ2nμ

σ2(n+1n1),

2n

Uogólniony rozkład T Studenta ma trzy parametry i wykorzystuje wszystkie trzy statystyki. Jeśli zdecydujesz się wyrzucić niektóre informacje, możesz dodatkowo przybliżyć swoje dane, stosując dwuparametrowy rozkład normalny, jak opisano w pytaniu.

Z bayesowskiego punktu widzenia można sobie wyobrazić, że niepewność w hiperparametrach modelu (rozkłady względem średniej i wariancji) powodują, że wariancja predykcji tylnej jest większa niż wariancja populacyjna.


-4

Mój Boże, komplikuje się! Myślałem, że prosta odpowiedź brzmi ... jeśli masz wszystkie punkty danych, których możesz użyć „n”, ale jeśli masz „próbkę”, to zakładając, że jest to próbka losowa, masz więcej punktów próbnych z odchylenia standardowego niż z zewnątrz (definicja odchylenia standardowego). Po prostu nie masz wystarczającej ilości danych na zewnątrz, aby uzyskać losowo wszystkie potrzebne dane. N-1 pomaga rozwinąć się w kierunku „prawdziwego” odchylenia standardowego.


3
n1n2
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.