Jaka jest różnica między N a N-1 w obliczaniu wariancji populacji?


50

Nie zrozumiałem, dlaczego tak jest, Ni N-1podczas obliczania wariancji populacji. Kiedy korzystamy Ni kiedy korzystamy N-1?

wprowadź opis zdjęcia tutaj
Kliknij tutaj, aby uzyskać większą wersję

Mówi, że gdy populacja jest bardzo duża, nie ma różnicy między N i N-1, ale nie mówi, dlaczego na początku występuje N-1.

Edycja: Proszę nie mylić ni n-1które są używane do oszacowania.

Edycja2: Nie mówię o szacowaniu populacji.


5
Można znaleźć tam odpowiedź: stats.stackexchange.com/questions/16008/... . Zasadniczo, należy użyć N-1, gdy oszacowanie wariancji i N kiedy obliczyć ją dokładnie.
ocram

@ocram, o ile wiem, kiedy szacujemy wariancję, używamy n lub n-1.
ilhan

Jeśli chcesz, aby estymator był bezstronny, powinieneś użyć n-1. Zauważ, że gdy n jest duże, nie ma to znaczenia.
ocram

2
Żadna z poniższych odpowiedzi nie jest napisana w kategoriach skończonego wnioskowania o populacji. Słowo „ skończony” ma tutaj absolutnie kluczowe znaczenie; o to właśnie chodzi w książce Kisha (i ktokolwiek mówił „Książka jest zła”, po prostu nie wie wystarczająco dużo o skończonych badaniach populacji i próbach). Iloraz zamiast tylko sprawia obliczenia ładniejszy i eliminuje konieczność ciągnięcia około czynniki, takie jak . Pełna odpowiedź na to pytanie musiałaby wprowadzić wnioskowanie na podstawie próby, gdy wskaźniki próby są losowe, a wartości obserwowanych cech są STAŁE. Nie losowo. Ustalone. N 1 - 1 / N yN1N11/Ny
StasK

2
To tak naprawdę nie dodaje się do innych odpowiedzi. To, że różne dzielniki dają różne odpowiedzi, a nawet że różnica maleje z N, nie jest kwestią sporną. Pytanie brzmi, kiedy i dlaczego użyć któregoś z dzielników.
Nick Cox

Odpowiedzi:


26

n ( N - 1 ) / N = 1 - ( 1 / N ) 1 - 2 / N 1 - 17 / N exp ( - 1 / N )N jest wielkością populacji, a jest wielkością próby. Pytanie dotyczy tego, dlaczego wariancja populacji jest średnim kwadratowym odchyleniem od średniej, a nie razy. Jeśli o to chodzi, po co się tu zatrzymywać? Dlaczego na przykład nie pomnożyć średniego odchylenia do kwadratu przez lub lub ?n(N1)/N=1(1/N)12/N117/Nexp(1/N)

Jest naprawdę dobry powód, aby tego nie robić. Każda z tych liczb, o których właśnie wspomniałem, posłuży jako dobry sposób na oszacowanie „typowego rozprzestrzeniania się” w populacji. Jednak bez wcześniejszej wiedzy na temat wielkości populacji niemożliwe byłoby użycie próby losowej w celu znalezienia obiektywnego oszacowania takiej liczby. Wiemy, że wariancja próby , która zwielokrotnia średnie kwadratowe odchylenie od średniej próby przez , jest obiektywnym estymatorem zwykłej wariancji populacji przy próbkowaniu z wymianą. (Nie ma problemu z dokonaniem tej korekty, ponieważ znamy !) W związku z tym wariancja próbki byłaby tendencyjnym estymatorem dowolnej wielokrotności wariancji populacji, w której ta wielokrotność, np.n 1 - 1 / N(n1)/nn11/N, nie jest wcześniej dokładnie znany.

Ten problem z nieznaną ilością stronniczości rozprzestrzeniłby się na wszystkie testy statystyczne wykorzystujące wariancję próbki, w tym testy t i testy F. W efekcie dzielenie przez formułę wariancji populacyjnej innej niż wymagałoby zmiany wszystkich tabel statystycznych statystyki t i statystyki F (oraz wielu innych tabel), ale dostosowanie zależałoby od wielkości populacji. Nikt nie chce tworzyć tabel dla każdego możliwego ! Zwłaszcza, gdy nie jest to konieczne.NNN

Z praktycznego punktu widzenia, gdy jest na tyle, że przy użyciu małych zamiast w formułach robi różnicę, zwykle nie zna wielkości populacji (lub można odgadnąć go dokładnie) i będzie prawdopodobnie uciekać się do znacznie bardziej istotnego małej populacji poprawki podczas pracy z losowymi próbkami (bez zastępowania) z populacji. We wszystkich innych przypadkach, kogo to obchodzi? Różnica nie ma znaczenia. Z tych powodów, kierując się względami pedagogicznymi (a mianowicie skupieniem się na szczegółach, które mają znaczenie i połyskiem nad szczegółami, które nie mają znaczenia), niektóre doskonałe teksty ze statystyk wprowadzających nawet nie przeszkadzają w nauczaniu różnicy: po prostu zapewniają formułę pojedynczej wariancji ( dzielić przezN - 1 N N nNN1NN lub zależnie od przypadku).n


24

Zamiast zagłębiać się w matematykę, postaram się wyrazić to prostymi słowami. Jeśli masz do dyspozycji całą populację, wówczas jej wariancja ( wariancja populacyjna ) jest obliczana za pomocą mianownika N. Podobnie, jeśli masz tylko próbkę i chcesz obliczyć wariancję tej próbki , używasz mianownika N(w tym przypadku n próbki). W obu przypadkach, uwaga, nie oszacować niczego: średnie, które mierzone jest prawdziwa średnia i wariancja ty obliczana od tej średniej jest prawdziwym wariancji.

Teraz masz tylko próbkę i chcesz wnioskować o nieznanej średniej i wariancji w populacji. Innymi słowy, chcesz oszacowań . Bierzesz średnią z próby dla oszacowania średniej populacji (ponieważ twoja próbka jest reprezentatywna), OK. Aby uzyskać oszacowanie wariancji populacji, musisz udawać, że ta średnia jest naprawdę średnią populacji, a zatem nie jest już zależna od twojej próby od momentu jej obliczenia. Aby „pokazać”, że traktujesz to jako ustalone, zastrzegasz jedną (dowolną) obserwację z próbki, aby „wesprzeć” wartość średniej: bez względu na to, co mogła się zdarzyć twoja próbka, jedna zastrzeżona obserwacja zawsze może sprowadzić średnią do wartości, którą „ dostałem i który uważa, że ​​jest niewrażliwy na nieprzewidziane próby. Jedną zastrzeżoną obserwacją jest „-1”N-1 w obliczaniu wariancji obliczeniowej.

Wyobraź sobie, że w jakiś sposób znasz prawdziwą średnią populacji, ale chcesz oszacować wariancję na podstawie próby. Następnie zamienisz ten prawdziwy środek na formułę wariancji i zastosujesz mianownik N: nie potrzebujesz tutaj „-1”, ponieważ znasz prawdziwy środek, nie oszacowałeś go na podstawie tej samej próbki.


Ale moje pytanie nie ma nic wspólnego z szacunkiem. Chodzi o obliczenie wariancji populacji; z N i N-1. Nie mówię o n i n-1.
ilhan

1
@ilhan, w mojej odpowiedzi użyłem Nzarówno N, jak i n. Njest wielkością całości, zarówno populacji, jak i próbki. Aby obliczyć wariancję populacji , musisz mieć do dyspozycji populację. Jeśli masz tylko próbkę, możesz obliczyć wariancję tej próbki lub obliczyć wariancję oszacowania populacji . Nie ma innej możliwości.
ttnphns

Mam pełną informację o mojej populacji; wszystkie wartości są znane. Nie jestem zainteresowany szacunkami.
ilhan

1
Jeśli masz swoją populację, użyj N. N-1 byłoby nielogiczne w użyciu.
ttnphns

1
@ilhan - Nie można skomentować twojego komentarza bezpośrednio do posta ttnphns, ale oto wyjaśnienie tego, co widzisz w książce i tego, jak powinieneś to wywnioskować. Symbol „S” stosowany w celu oznaczenia wariancji zawsze odnosi się do wariancji próbki. Grecka litera sigma odnosi się do wariancji populacji. To dlatego widzisz w książce wzmiankę S = N * sigma / (N - 1)
Arvind,

9

Ogólnie rzecz biorąc, jeśli ktoś ma tylko ułamek populacji, tj. Próbkę, należy podzielić przez n-1. Jest ku temu dobry powód, wiemy, że wariancja próby, która zwielokrotnia średnie kwadratowe odchylenie od średniej próby przez (n-1) / n, jest obiektywnym estymatorem wariancji populacji.

Możesz znaleźć dowód, że estymator wariancji próbki jest obiektywny tutaj: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Ponadto, gdyby zastosować estymator wariancji populacji, czyli wersję estymatora wariancji, która dzieli przez n, na próbie zamiast populacji, uzyskane oszacowanie byłoby tendencyjne.


To wydaje się odpowiadać na inne pytanie dotyczące szacowania wariancji populacji. Wygląda na okrągłą: czy ta odpowiedź nie opiera się na założeniu konkretnej konwencji definiowania wariancji populacji?
whuber

7

W przeszłości istniał argument, że powinieneś używać N dla wariancji nieinferencyjnej, ale nie zalecałbym tego więcej. Zawsze powinieneś używać N-1. Gdy wielkość próbki maleje, N-1 jest całkiem dobrą poprawką na to, że wariancja próbki maleje (po prostu bardziej prawdopodobne jest, że będziesz pobierał próbki blisko szczytu rozkładu --- patrz rysunek). Jeśli wielkość próbki jest naprawdę duża, nie ma to znaczenia.

Alternatywnym wyjaśnieniem jest to, że populacja jest teoretyczną konstrukcją, której nie da się osiągnąć. Dlatego zawsze używaj N-1, ponieważ cokolwiek robisz, w najlepszym razie szacujesz wariancję populacji.

Od tego momentu zobaczysz N-1 w celu oszacowania wariancji. Prawdopodobnie nigdy nie spotkasz się z tym problemem ... z wyjątkiem testu, kiedy nauczyciel może poprosić cię o rozróżnienie między wnioskowaniem a wnioskiem miara wariancji nieinferencyjnej. W takim przypadku nie używaj odpowiedzi Whubera ani mojej, zapoznaj się z odpowiedzią ttnphns.

Rycina 1

Uwaga: na tym rysunku wariancja powinna być zbliżona do 1. Spójrz, jak bardzo zmienia się ona wraz z rozmiarem próbki, gdy używasz N do oszacowania wariancji. (jest to „uprzedzenie”, o którym mowa w innym miejscu)


1
Proszę, powiedz mi, dlaczego N „nie jest już polecany”, mając pod ręką prawdziwą populację? Populacja nie zawsze jest konstrukcją teoretyczną. Czasami twoja próbka jest dla ciebie w dobrej wierze.
ttnphns

1
ilhan, N może być użyty do próby lub może być użyty do wielkości populacji, jeśli taka istnieje. W większości przypadków rozróżnienie między dużą N i małą n zależy od tematu. Na przykład n może być liczbą przypadków w każdych warunkach eksperymentu, a N może być liczbą eksperymentu. Obie są próbkami. Nie ma globalnej reguły.
Jan

1
ttnphns, to zależy od tego, co rozumiesz przez populację. Argumentowałbym, że jeśli cała populacja jest tak mała, że ​​N-1 ma znaczenie, to wątpliwe, czy obliczenie średniego odchylenia do kwadratu jest w ogóle przydatne. Pokaż wszystkie wartości, ich kształt i zakres. Co więcej, cały stary argument, że faktycznie masz N stopni swobody, jeśli nie wnioskujesz, jest wątpliwy. Straciłeś jedną, gdy obliczyłeś średnią, którą musisz obliczyć wariancję.
Jan

1
@John, jeśli obliczyć znaczy wewnątrz populacji po prostu stwierdzenie faktu o parametrze, więc można spędzić nie stopniach swobody. Jeśli obliczasz to w próbie i chcesz wnioskować o populacji, to wydajesz jeden. Mogę też mieć populację o wartości N = 1. Mając mianownik N-1, wydaje się, że nie istnieje dla niego taki parametr jak wariancja . To nonsens.
ttnphns

3
@ilhan Zastanów się nad zaktualizowaniem swojego pytania (tak jak zrobiłeś) i wskaż zaktualizowaną wersję, zamiast zostawiać takie niekonstruktywne komentarze. Wszystko jest dyskusyjne, zwłaszcza gdy samo pytanie nie ma kontekstu. Tutaj wydaje się, że problem polega na zdefiniowaniu, czym naprawdę jest populacja.
chl

4

Wariancja populacji to suma kwadratowych odchyleń wszystkich wartości w populacji podzielona przez liczbę wartości w populacji. Gdy jednak szacujemy wariancję populacji z próby, napotykamy problem polegający na tym, że odchylenia wartości próbki od średniej próbki są średnio nieco mniejsze niż odchylenia tych wartości próbki od ( nieznana) średnia rzeczywistej populacji To powoduje, że wariancja obliczona na podstawie próby jest nieco mniejsza niż prawdziwa wariancja populacji. Użycie dzielnika n-1 zamiast n poprawia to niedoszacowanie.


@ Bunnenburg, jeśli masz odpowiedź na swoje pytanie. Proszę, wyjaśnij mi teraz, co masz? To także dla mnie duże zamieszanie.
Bilal Para,

aby zrekompensować tę nieco mniejszą wariancję, dlaczego nie można użyć n-2, n-3 itd.? dlaczego w szczególności n-1? dlaczego nie stała ... ???
Saravanabalagi Ramachandran

@SaravanabalagiRamachandran Rozbieżność różni się w zależności od wielkości próbki, więc stała nie będzie służyć. Korekcja za pomocą n-1 jest bliższa, działa lepiej niż inne, o których wspominasz.
Michael Lew
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.