Jestem całkiem nowy w statystyce (garść kursów Uni dla początkujących) i zastanawiałem się nad próbkowaniem z nieznanych dystrybucji. W szczególności, jeśli nie masz pojęcia o podstawowej dystrybucji, czy jest jakiś sposób na „zagwarantowanie” otrzymania reprezentatywnej próbki?
Przykład do zilustrowania: powiedz, że próbujesz ustalić globalny rozkład bogactwa. Dla każdej osoby możesz w jakiś sposób dowiedzieć się o jej dokładnym bogactwie; ale nie można „próbkować” każdej osoby na Ziemi. Załóżmy, że próbujesz losowo n = 1000 osób.
Jeśli twoja próbka nie obejmowała Billa Gatesa, możesz pomyśleć, że nie ma miliarderów.
Jeśli próbka zawiera Billa Gatesa, możesz pomyśleć, że miliarderzy są bardziej powszechni niż w rzeczywistości.
W obu przypadkach tak naprawdę nie można powiedzieć, jak powszechni lub rzadcy są miliarderzy; możesz nawet nie być w stanie stwierdzić, czy coś w ogóle istnieje.
Czy istnieje lepszy mechanizm próbkowania dla takich przypadków?
Jak powiedziałbyś a priori, jaką procedurę pobierania próbek należy zastosować (i ile próbek jest potrzebnych)?
Wydaje mi się, że być może będziesz musiał „przebadać” ogromną część populacji, aby wiedzieć, ze zbliżającą się rozsądną pewnością, o tym, jak powszechni lub rzadcy miliarderzy są na planecie, i że jest to spowodowane tym, że podstawowa dystrybucja jest nieco trudna pracować z.