Czy ma sens obliczanie przedziałów ufności i testowanie hipotez, gdy dostępne są dane z całej populacji?

Czy ma sens obliczanie przedziałów ufności i testowanie hipotez, gdy dostępne są dane z całej populacji? Moim zdaniem odpowiedź brzmi „nie”, ponieważ możemy dokładnie obliczyć prawdziwe wartości parametrów. Ale jaka jest maksymalna proporcja danych z pierwotnej populacji, która pozwala nam korzystać z wyżej wymienionych technik?

— Miroslav Sabo
źródło

Jeśli użyjesz prawidłowych metod próby skończonej, wariancja osiągnie zero, gdy próbka osiągnie wielkość populacji. Oznacza to, że nie ma maksymalnego rozmiaru; właściwe preparaty działają zgodnie z oczekiwaniami, aż do .

n = N

$n=N$

— Glen_b

Myślę, że powinieneś podać to jaśniej, jeśli pytanie dotyczy przypadku „próbka = populacja” lub „próbka ze skończonej populacji”.

— ttnphns

Pierwsza część pytania dotyczy próby = populacji, a druga próby z populacji (gdy wielkość próby <wielkość populacji).

— Miroslav Sabo

Powiązane pytania: Testować istotność z danymi reprezentującymi całą populację? i zasoby, kiedy dostępne są dane o populacji

— Silverfish

Odpowiedzi:

Pierwsze pytanie to takie, które zasadniczo nie uzgodniło odpowiedzi. Mój pogląd jest podobny do twojego, ale inni argumentowali, że populację można postrzegać jako próbkę z „super-populacji”, gdzie dokładna natura super-populacji różni się w zależności od kontekstu: np. Spis wszystkich ludzi mieszkających w budynek może być postrzegany jako próbka od wszystkich ludzi mieszkających w podobnych budynkach; spis ludności USA (nie żeby nigdy nie był naprawdę kompletny) może być postrzegany jako próbka pochodząca z super-populacji Amerykanów, która pewnego dnia może istnieć (lub coś w tym rodzaju). Myślę, że często jest to wymówka, aby użyć wartości p; wielu naukowców z dziedzin merytorycznych nie czuje się dobrze, jeśli nie mają wartości p. (Ale to mój pogląd).

Na drugie pytanie wydaje się nieco dziwna odpowiedź w sposób ogólny. Kiedy otrzymujesz próbkę, która (powiedzmy), stanowi więcej niż połowę populacji?

Większym problemem będzie stronniczość. Wracając do spisu powszechnego w USA, problemem nie jest po prostu to, że tęskni za ludźmi, ale że ludzie, za którymi tęskni, nie są losową próbą całej populacji; więc nawet jeśli spis otrzyma odpowiedzi od (aby wybrać liczbę) 95% wszystkich ludzi, jeśli te 5% pozostałych jest zupełnie innych, wyniki będą tendencyjne.

— Peter Flom
źródło

Myślę, że to, czy obliczasz przedziały ufności dla statystyki populacji, zależy od tego, czy chcesz wyciągać wnioski na temat rzeczywistej populacji, czy hipotetycznej „super populacji”. W poprzedniej pracy w stanowym wydziale zdrowia zgłaszaliśmy roczne statystyki, takie jak bardzo niski odsetek urodzeń i wskaźniki samobójstw, które odbijały się z roku na rok. Tak, informowaliśmy o całej populacji, ale głupotą byłoby polegać na postępie stanu zdrowia (i finansowaniu!) Państwa przy każdym wzroście lub spadku tych i innych wskaźników zdrowotnych jako całkowitej zmianie stanu zdrowia populacji.

— RobertF

Załóżmy, że tylko 2 na 12 członków komitetu to kobiety.

$\frac{1}{6}$

Lub można to uznać za oszacowanie prawdopodobieństwa, że kobieta zostanie wybrana do komitetu - właściwość procesu selekcji. Możesz umieścić wokół niego przedziały ufności, przetestować, czy różni się znacznie od połowy (lub innej istotnej hipotezy zerowej) i tak dalej. Być może proces musi zostać zmieniony, aby był sprawiedliwy.

Oba poglądy, opisowy i wnioskowy, nie są ze sobą sprzeczne, ale dość odmienne.

Odpowiedź na drugie pytanie jest taka, że sensowne jest obliczanie przedziałów ufności dla i testowania hipotez dotyczących parametru populacji, nawet jeśli tylko jedna osoba nie jest próbkowana. Należy tylko pamiętać, że CI i testy muszą uwzględniać znaczną część populacji, z której pobiera się próbki: patrz skończona korekta populacji .

— Scortchi - Przywróć Monikę
źródło