Jak próbkować, gdy nie znasz dystrybucji

9

Jestem całkiem nowy w statystyce (garść kursów Uni dla początkujących) i zastanawiałem się nad próbkowaniem z nieznanych dystrybucji. W szczególności, jeśli nie masz pojęcia o podstawowej dystrybucji, czy jest jakiś sposób na „zagwarantowanie” otrzymania reprezentatywnej próbki?

Przykład do zilustrowania: powiedz, że próbujesz ustalić globalny rozkład bogactwa. Dla każdej osoby możesz w jakiś sposób dowiedzieć się o jej dokładnym bogactwie; ale nie można „próbkować” każdej osoby na Ziemi. Załóżmy, że próbujesz losowo n = 1000 osób.

Jeśli twoja próbka nie obejmowała Billa Gatesa, możesz pomyśleć, że nie ma miliarderów.
Jeśli próbka zawiera Billa Gatesa, możesz pomyśleć, że miliarderzy są bardziej powszechni niż w rzeczywistości.

W obu przypadkach tak naprawdę nie można powiedzieć, jak powszechni lub rzadcy są miliarderzy; możesz nawet nie być w stanie stwierdzić, czy coś w ogóle istnieje.

Czy istnieje lepszy mechanizm próbkowania dla takich przypadków?

Jak powiedziałbyś a priori, jaką procedurę pobierania próbek należy zastosować (i ile próbek jest potrzebnych)?

Wydaje mi się, że być może będziesz musiał „przebadać” ogromną część populacji, aby wiedzieć, ze zbliżającą się rozsądną pewnością, o tym, jak powszechni lub rzadcy miliarderzy są na planecie, i że jest to spowodowane tym, że podstawowa dystrybucja jest nieco trudna pracować z.

— syenmesh
źródło

1

W przypadku podziału bogactwa wiele zależy od tego, jaki dokładnie był cel. Jeśli na przykład celem było oszacowanie poziomu zamożności, który umieściłby jednostkę w pierwszej 10%, górnej 20% itd., To nie byłoby istotne, czy próba obejmowała miliarderów, czy nie. Ale jeśli celem byłoby oszacowanie proporcji bogactwa posiadanego ogółem przez 10%, to prawdopodobnie sposób, w jaki próba poradziła sobie z miliarderami, prawdopodobnie byłaby krytyczna. Ogólnie chodzi o to, że to, czy próbka jest reprezentatywna, zawsze zależy od tego, co próbujesz zrobić.

— Adam Bailey

naprawdę? otwarty problem, dobre odpowiedzi, nadal są przybliżeniami (czasem lepsze, czasem gorsze). Jest to otwarty problem, może pojedynczy otwarty problem statystyki

— Nikos M.

9

Nie zgadzam się z twoim twierdzeniem, że „w obu przypadkach tak naprawdę nie można powiedzieć, jak powszechni lub rzadcy są miliarderzy”. Niech będzie nieznaną częścią miliarderów w populacji. Z jednolitym poprzedzeniem na , rozkład tylny po losowań, które okazały się mieć 0 miliarderów, jest rozkładem Beta (11001), który wygląda następująco: $f$ $f$ $f$ $1000$ p (f | b = 0)

Podczas gdy rozkład tylny po losowań, który okazał się mieć 1 miliarder, jest rozkładem Beta (21000), który wygląda następująco: $f$ $1000$ p (f | b = 1)

W obu przypadkach możesz być całkiem pewien, że . Możesz pomyśleć, że to nie jest wystarczająco precyzyjne. Ale tak naprawdę 0,01 jest dość dokładny dla próbki o wielkości 1000. Większość innych wielkości, które można oszacować, byłoby mniej dokładne. Na przykład odsetek mężczyzn można oszacować jedynie w zakresie wielkości 0,1. $f < 0.01$

— Tom Minka
źródło

7

Możesz zrobić dwie rzeczy (osobno lub łącznie)

Modeluj ogon

Jednym z nich jest modelowanie ogona rozkładu za pomocą rozkładu parametrycznego. Wiadomo, że prawa władzy dobrze pasują do podziału bogactwa, więc wypróbuj rozkład Pareto. Pasowałbyś do tego rozkładu według maksymalnego prawdopodobieństwa, to znaczy poprzez znalezienie parametrów, które najlepiej reprezentują twoją próbkę. Lub lepiej, możesz postawić priory bayesowskie na parametrach i obliczyć pełny a posterior.

Niestety prawa mocy są bardzo wrażliwe na parametry i bez wielu dużych punktów danych w twojej próbce będzie dużo niepewności co do wykładnika. Szacowana liczba miliarderów będzie wrażliwa na ten parametr, ale znacznie mniej niż średnie bogactwo miliarderów, więc sytuacja nie jest taka zła.

Pobieranie próbek według ważności

Drugim jest zmiana sposobu pobierania próbki. Załóżmy, że podejrzewasz (tak jak powinieneś), że w Monako lub Zurychu jest więcej miliarderów na mieszkańca niż w Mogadisziu. Jeśli znasz populację każdego z tych miast, możesz zebrać większą próbkę w miastach, w których spodziewasz się zobaczyć więcej miliarderów, a mniejszą w innych.

Powiedzmy, że Zurych ma 400 000 osób, a Mogadiszu 1 400 000, a my chcemy sondować 9 000 osób. Interesuje nas tutaj liczba milionerów, a nie miliarderów.

Bezstronna próba wybrałaby 2000 osób w Zurychu i 7 000 w Mogadiszu. Będziemy jednak obciążać próbkę, pobierając próbki siedmiokrotnie częściej z Zurychu. Więc „udamy”, że Zurych ma 2 800 000 ludzi, i dostosujemy się później. Oznacza to, że sondujemy 6000 osób w Zurychu zamiast 2000 i 4000 w Mogadiszu.

Załóżmy, że liczymy 21 milionerów w naszej próbie w Zurychu i tylko 1 w naszej próbie Mogadiszu. Ponieważ próbowaliśmy 7 razy w Zurychu, policzymy to tylko jako 3 milionerów.

Ta procedura zmniejszy wariancję estymatora. Może być również używany w połączeniu z pierwszą metodą, w którym to przypadku dostosowujesz próbkowanie według ważności przy dopasowywaniu rozkładu parametrycznego.

— Arthur B.
źródło

6

Myślę, że dobra metoda próbkowania opiera się na wcześniejszej znajomości systemu. W swojej dziedzinie masz wiedzę na temat potencjalnych stronniczości, które mogą wpłynąć na próbkowanie. Jeśli nie masz tej wiedzy, możesz ją zdobyć z literatury.

W swoim przykładzie wiesz, że są miliarderzy i że mogą one wpływać na twoje próbkowanie. Możesz więc zdecydować się na stratyfikację próby według poziomu wykształcenia, kraju, rodzaju pracy itp. Istnieje wiele opcji.

Spróbujmy z innym przykładem. Twoim celem jest ustalenie liczebności gatunku myszy w parku. W tym parku jest las i łąki. Z literatury wiadomo, że myszy są bardziej liczne w lesie niż na łąkach. Więc stratyfikujesz próbkowanie według tej cechy. Możliwe są inne procedury pobierania próbek, ale myślę, że najlepsze informacje będą pochodzić z istniejącej literatury.

A jeśli nie ma literatury na temat Twojej dziedziny? Jest to nieprawdopodobne, ale w tym kontekście przeprowadziłbym badanie wstępne, aby sprawdzić, jakie czynniki należy wziąć pod uwagę przy pobieraniu próbek.

— Emilie
źródło

2

To, czy próbka jest reprezentatywna, czy nie, nie ma nic wspólnego z obserwowanymi pomiarami próbki. Próbka jest reprezentatywna, jeśli każdy zestaw jednostek obserwacyjnych ma takie samo prawdopodobieństwo wybrania, jak każdy inny zestaw tej samej wielkości. Oczywiście jest to trudne, chyba że można uzyskać pełne wyliczenie przestrzeni próbki. Zakładając, że możesz to uzyskać (na przykład na podstawie danych z spisu ludności), prosta losowa próbka będzie reprezentatywna.

Bez względu na to, jak uzyskasz próbkę, zawsze będą istnieć co najmniej trzy osobne źródła błędów do rozważenia:

błąd próbkowania: przez przypadek włączasz Billa Gatesa do reprezentatywnej próbki. Metody statystyczne, zwłaszcza szerokości przedziałów ufności itp., Zostały zaprojektowane, aby to załatwić, pod warunkiem, że masz pewną przybliżoną wiedzę o dostępnym rozkładzie (np. Normalność, której rozkład bogactwa zdecydowanie nie posiada).

błąd próbkowania: próbka nie była reprezentatywna. Przykład: Bill Gates ma numer niepubliczny, więc Twoja ankieta telefoniczna nigdy go nie dotrze (chyba że użyjesz czegoś takiego jak „wybieranie losowe”). Jest to skrajny przykład, ale błąd w pobieraniu próbek jest bardzo rozpowszechniony. Częstym zjawiskiem jest pobieranie próbek na miejscu lub dla wygody: w restauracji próbujesz patronów restauracji, czy podoba im się to miejsce, jak często tam byli i czy planują wrócić. Klienci powtórzeniowi są znacznie bardziej skłonni do pobierania próbek niż klienci jednorazowi, a ich próbki mogą być poważnie tendencyjne.

błąd odpowiedzi: same pomiary są niedokładne. Może się to zdarzyć z powodu jakichkolwiek wad działania miernika, świadomego kłamstwa lub efektów kwantowych (np. Zasada nieoznaczoności Heisenberga).

— użytkownik3697176
źródło

Ta odpowiedź zawiera przydatne porady i obejmuje dobry grunt. Chciałbym jednak zasugerować, że charakterystyka „reprezentatywna” może być zbyt restrykcyjna, ponieważ wyklucza powszechne i użyteczne formy próbkowania (w tym niektóre konkretnie wymienione w innych odpowiedziach), takie jak próbkowanie warstwowe, ważność próbkowania i formy prób systematycznych . Czy nie wystarczy dopuścić, aby próbka była reprezentatywna, gdy znana jest szansa włączenia dowolnego zestawu jednostek obserwacyjnych (i dlatego może być wykorzystana do uzyskania obiektywnych szacunków), ale niekoniecznie stała dla wszystkich zbiorów o danym rozmiarze?

— whuber

@whuber „Czy nie wystarczyłoby, aby próbka była reprezentatywna, gdy znana jest szansa włączenia dowolnego zestawu jednostek obserwacyjnych ...”: To prawda i powinienem edytować swoją odpowiedź, aby potwierdzić próbkowanie warstwowe i próbkowanie ważności. Jednak systematyczne pobieranie próbek jest ryzykowne, a porady podane w linku i innych miejscach są po prostu błędne. Jeśli w danych występują systematyczne wzorce, losowy punkt początkowy nie wyeliminuje błędu systematycznego, wystarczy jedynie upewnić się, że nie będziesz w stanie obliczyć błędu systematycznego.

— user3697176,

może najlepsza jak dotąd odpowiedź (w sensie bezpośredniego dążenia do punktu statystycznego)

— Nikos M.