Jeśli nie chcesz analizować całego zestawu danych, prawdopodobnie nie możesz użyć próbkowania warstwowego , więc sugeruję pobranie dużej prostej próbki losowej . Pobierając losową próbkę, upewniasz się, że próbka będzie średnio reprezentatywna dla całego zestawu danych, a standardowe miary precyzji statystycznej, takie jak standardowe błędy i przedziały ufności, pokażą ci, jak daleko od wartości populacji prawdopodobne są twoje oszacowania próby tak więc nie ma prawdziwej potrzeby sprawdzania, czy próbka jest reprezentatywna dla populacji, chyba że masz pewne obawy, że próbka została naprawdę losowo pobrana.
Jak duża prosta losowa próbka? Cóż, im większa próba, tym dokładniejsze będą twoje szacunki. Ponieważ masz już dane, konwencjonalne obliczenia wielkości próby nie mają tak naprawdę zastosowania - możesz równie dobrze wykorzystać tak dużo swojego zestawu danych, jak jest to praktyczne w przypadku komputerów. O ile nie planujesz wykonać skomplikowanych analiz, które sprawią, że czas obliczeń stanie się problemem, prostym podejściem byłoby wykonanie prostej próbki losowej tak dużej, aby można ją było przeanalizować na komputerze bez wywoływania stronicowanialub inne problemy z pamięcią. Jedna ogólna zasada, aby ograniczyć rozmiar zestawu danych do nie więcej niż połowy pamięci RAM komputera, aby mieć miejsce do manipulowania nim i pozostawić miejsce dla systemu operacyjnego i być może kilku innych mniejszych aplikacji (takich jak edytor i przeglądarka internetowa) ). Kolejnym ograniczeniem jest to, że 32-bitowe systemy operacyjne Windows nie pozwolą, aby przestrzeń adresowa dla jednej aplikacji była większa niż2)31 bajty = 2,1 GB, więc jeśli używasz 32-bitowego systemu Windows, 1 GB może być rozsądnym ograniczeniem rozmiaru zestawu danych.
Jest to więc kwestia prostej arytmetyki, aby obliczyć, ile obserwacji można próbkować, biorąc pod uwagę liczbę zmiennych dla każdej obserwacji i liczbę bajtów, które każda zmienna zajmuje.