Jak zrobić reprezentatywny zestaw próbek z dużego ogólnego zestawu danych?

10

Jakie są techniki statystyczne, aby utworzyć zestaw próbek, który jest reprezentatywny dla całej populacji (o znanym poziomie ufności)?

Również,

Jak sprawdzić poprawność, jeśli próbka pasuje do całego zestawu danych?
Czy jest to możliwe bez analizowania całego zestawu danych (co może być miliardami rekordów)?

sampling sample-size validation

— Mohit Ranka
źródło

8

Jeśli nie chcesz analizować całego zestawu danych, prawdopodobnie nie możesz użyć próbkowania warstwowego , więc sugeruję pobranie dużej prostej próbki losowej . Pobierając losową próbkę, upewniasz się, że próbka będzie średnio reprezentatywna dla całego zestawu danych, a standardowe miary precyzji statystycznej, takie jak standardowe błędy i przedziały ufności, pokażą ci, jak daleko od wartości populacji prawdopodobne są twoje oszacowania próby tak więc nie ma prawdziwej potrzeby sprawdzania, czy próbka jest reprezentatywna dla populacji, chyba że masz pewne obawy, że próbka została naprawdę losowo pobrana.

Jak duża prosta losowa próbka? Cóż, im większa próba, tym dokładniejsze będą twoje szacunki. Ponieważ masz już dane, konwencjonalne obliczenia wielkości próby nie mają tak naprawdę zastosowania - możesz równie dobrze wykorzystać tak dużo swojego zestawu danych, jak jest to praktyczne w przypadku komputerów. O ile nie planujesz wykonać skomplikowanych analiz, które sprawią, że czas obliczeń stanie się problemem, prostym podejściem byłoby wykonanie prostej próbki losowej tak dużej, aby można ją było przeanalizować na komputerze bez wywoływania stronicowanialub inne problemy z pamięcią. Jedna ogólna zasada, aby ograniczyć rozmiar zestawu danych do nie więcej niż połowy pamięci RAM komputera, aby mieć miejsce do manipulowania nim i pozostawić miejsce dla systemu operacyjnego i być może kilku innych mniejszych aplikacji (takich jak edytor i przeglądarka internetowa) ). Kolejnym ograniczeniem jest to, że 32-bitowe systemy operacyjne Windows nie pozwolą, aby przestrzeń adresowa dla jednej aplikacji była większa niż $2^{31}$ bajty = 2,1 GB, więc jeśli używasz 32-bitowego systemu Windows, 1 GB może być rozsądnym ograniczeniem rozmiaru zestawu danych.

Jest to więc kwestia prostej arytmetyki, aby obliczyć, ile obserwacji można próbkować, biorąc pod uwagę liczbę zmiennych dla każdej obserwacji i liczbę bajtów, które każda zmienna zajmuje.

— jeden przystanek
źródło

Dzięki za odpowiedź. Chyba szukam warstwowego próbkowania. (Szukałem algorytmów, które nie są bardzo drogie obliczeniowo, ponieważ nie analizują całej populacji, aby utworzyć reprezentatywny zestaw, nawet nie ma sensu. :-))

— Mohit Ranka

2

W drugim pytaniu najpierw możesz zapytać: „jak wprowadzono dane?” Jeśli uważasz, że dane zostały wprowadzone w stosunkowo arbitralny sposób (tj. Niezależnie od jakichkolwiek obserwowalnych lub niemożliwych do zaobserwowania cech twoich obserwacji, które mogą wpłynąć na twoją ostateczną analizę z wykorzystaniem danych), możesz rozważyć pierwsze 5 milionów, powiedzmy, lub jednak z wieloma, z którymi wygodnie pracujesz, jako reprezentant pełnej próbki i wybierz losowo z tej grupy, aby utworzyć próbkę, z którą możesz pracować.

Aby porównać dwie rozkłady empiryczne, można użyć wykresów qq i dwupróbkowego testu nieparametrycznego Kołmogorowa – Smirnowa pod kątem różnic w rozkładach (patrz np. Tutaj: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). W takim przypadku przetestowałbyś rozkład każdej zmiennej w próbce w porównaniu z rozkładem tej zmiennej w „pełnym” zbiorze danych (ponownie, może to być zaledwie 5 milionów obserwacji z pełnej próbki). Test KS może cierpieć z powodu niskiej mocy (tzn. Trudno odrzucić hipotezę zerową braku różnicy między grupami), ale przy tak wielu obserwacjach powinieneś być w porządku.

— Charlie
źródło