Prawdopodobieństwo przecięcia z wielokrotnego próbkowania tej samej populacji

10

Oto przykładowy przypadek:

Mam populację 10 000 przedmiotów. Każdy element ma unikalny identyfikator.
Losowo wybieram 100 przedmiotów i zapisuję identyfikatory
Odłożyłem 100 przedmiotów z powrotem do populacji
Losowo ponownie wybieram 100 przedmiotów, zapisuję identyfikatory i wymieniam.
W sumie powtarzam losowe próbkowanie 5 razy

Jakie jest prawdopodobieństwo, że liczba elementów pojawi się we wszystkich 5 losowych próbkach? $X$

Nie znam się na statystykach. Czy byłoby to poprawne dla ? $X = 10$

Dla każdego próbkowania liczba możliwych kombinacji 100 elementów z 10 000 wynosi ${\rm binom}(10000, 100)$
Spośród wszystkich możliwych kombinacji 100 elementów kombinacje ${\rm binom}(9990, 90) * {\rm binom}(100, 10)$ zawierają 10 określonych elementów
Prawdopodobieństwo posiadania 10 określonych pozycji to $({\rm binom}(9990, 90) * {\rm binom}(100, 10)) / {\rm binom}(10000, 100)$
Obliczone prawdopodobieństwo potęgi 5 reprezentowałoby 5 niezależnych próbek.

Więc w zasadzie obliczamy tylko 5 niezależnych prawdopodobieństw hipergeometrycznych, a następnie mnożymy je razem? Czuję, że gdzieś mi brakuje kroku.

probability hypergeometric

— daemonk
źródło

3

Jeśli powtórzysz coś raz, oznacza to, że robisz to dwa razy. Czy powtarzanie czegoś 5 razy oznacza, że robisz to 6 razy?

— Glen_b

3

Oblicz szanse rekurencyjnie.

Niech jest prawdopodobieństwo, że dokładnie wartości, , wybierane są we wszystkich niezależny czerpie z elementów (bez wymiany) z populacji członków . (Trzymajmy i ustalone na czas analizy, aby nie musiały być wyraźnie wymienione). $p_s(x)$ $x$ $0 \le x \le k$ $s\ge 1$ $k$ $n \ge k \gt 0$ $n$ $k$

Niech będzie prawdopodobieństwem, że jeśli dokładnie wartości zostaną wybrane w pierwszych losowaniach , to z nich zostanie wybranych w ostatnim losowaniu. Następnie, ponieważ istnieją podzbiory elementów tych elementów i podzbiory pozostałych elementów oddzielnie wybiera się z pozostałych członków populacji $p_s(x\mid y)$ $y$ $s-1$ $x \le y$ $\binom{y}{x}$ $x$ $y$ $\binom{n-y}{k-x}$ $k-x$ $n-y$

p_{s} (x ∣ y) = \frac{(\binom{y}{x}) (\binom{n - y}{k - x})}{(\binom{n}{k})} .

$p_s(x\mid y) = \frac{\binom{y}{x}\binom{n-y}{k-x}}{ \binom{n}{k}}.$

Zapewnia prawo całkowitego prawdopodobieństwa

p_{s} (x) = \sum_{y = x}^{k} p_{s} (x ∣ y) p_{s - 1} (y) .

$p_s(x) = \sum_{y=x}^k p_s(x\mid y) p_{s-1}(y).$

Dla jest pewne, że : jest to rozkład początkowy. $s=1$ $x=k$

Całkowite obliczenie potrzebne do uzyskania pełnego rozkładu w górę poprzez powtórzeń to . Algorytm jest nie tylko dość szybki, ale także łatwy. Jedną z pułapek czekających na nieostrożnego programistę jest to, że prawdopodobieństwa te mogą stać się wyjątkowo małe i obliczenia zmiennoprzecinkowe poniżej granicy. Poniższa implementacja pozwala tego uniknąć, obliczając wartości w kolumnach tablicy. $s$ $O(k^2 s)$ R $\log(p_s(x))$ $1, 2, \ldots, s$

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

Odpowiedź na pytanie uzyskuje się, pozwalając , a . $s=5,$ $n=10000=10^4$ $k=100=10^2$ Dane wyjściowe to tablica , ale większość liczb jest tak mała, że możemy skupić się na bardzo małym . Oto pierwsze cztery wiersze odpowiadające : $101\times 5$ $x$ $x=0,1,2,3$

p(5, 1e4, 1e2)[1:4, ]

Dane wyjściowe to

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

Wartości oznaczają wiersze, a wartości oznaczają kolumny. Kolumna 5 pokazuje, że prawdopodobieństwo pojawienia się jednego elementu we wszystkich pięciu próbkach jest niewielkie (około jeden na milion) i zasadniczo nie ma szans, że we wszystkich pięciu próbkach pojawią się dwa lub więcej elementów. $x$ $s$

Jeśli chcesz zobaczyć, jak małe są te szanse, spójrz na ich logarytmy. Baza 10 jest wygodna i nie potrzebujemy wielu cyfr:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

Dane wyjściowe mówią nam, ile jest zer po przecinku:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0

Liczby w górnym rzędzie są wartościami . Na przykład, szansa na pojawienie się dokładnie trzech wartości we wszystkich pięciu próbkach jest obliczana na podstawie obliczeń , dając i faktycznie ma to zer przed pierwsza cyfra znacząca. Jako sprawdzenie, ostatnia wartość jest zaokrągloną wersją . (która liczy szanse, że pierwsza próbka pojawi się ponownie w następnych czterech próbkach) wynosi $x$ exp(u[4]) $0.000\,000\,000\,000\,000\,000\,1434419\ldots$ $18$ $967.0$ $967.26$ $\binom{10000}{100}^{-4}$ $10^{-967.26}.$

— Whuber
źródło

0

Właśnie natknąłem się na podobny problem i mimo że nie wiem, czy jest to prawidłowe rozwiązanie, podszedłem do niego w następujący sposób:

Jesteś zainteresowany pojawieniem się elementów w 5 próbkach - elementów na elementów ogółem. Możesz pomyśleć o urnie z białymi kulkami i czarnymi kulkami. kulek jest wyjmowanych, a to prawdopodobieństwo, że masz wszystkie białych kulek w swoim zestawie. Jeśli zrobisz to razy (niezależnie), to: . $X$ $100$ $10,000$ $X$ $10,000-X$ $100$ $p_h$ $X$ $5$ $p = {p_h}^5$

Mógłbym nawet wymyślić jeden krok dalej i owinąć go wokół rozkładu dwumianowego: Jeśli masz monetę, która pojawia się z prawdopodobieństwem (prawdopodobieństwo, że masz wszystkie przedmioty w zestawie) i rzucisz ją razy, co to jest prawdopodobieństwo zdobycia głów? . $p_h$ $5$ $5$ $p = {5\choose 5}{p_h}^5 (1-{p_h})^{5-5} = {p_h}^5$

— Hans
źródło

0

Jakie jest prawdopodobieństwo, że liczba elementów pojawi się we wszystkich 5 losowych próbkach? $X$

Opierając się na tym, co powiedział Hans, chcesz zawsze uzyskać te same identyfikatory w każdej próbce 100 i 100- identyfikatorów spośród pozostałych 10000- . Prawdopodobieństwo zrobienia tego dla danej próbki jest określone przez funkcję hipergeometryczną dla sukcesów w losowaniu 100 z populacji 10000 z możliwymi stanami sukcesu: . Dla 5 próbek weźmiesz . $X$ $X$ $X$ $X$ $X$ $P = \frac{{X \choose X}{10000-X \choose 100-X}}{10000 \choose 100}$ $P^5$

Jednak, że zakładają znając identyfikatory, które są wspólne, i istnieje sposobów wybrać te identyfikatory. Ostateczna odpowiedź to . $X$ $10000 \choose X$ $X$ ${10000 \choose X} P^5$

— Hao Ye
źródło

Co to jest „ ”? Nie można zrozumieć tej odpowiedzi, a tym bardziej ją sprawdzić, dopóki jej nie ujawnisz!

x

$x$

— whuber

Nie pamiętam, jak to było 3 lata temu, ale przypuszczalnie taki sam X jak w pytaniu?

— Hao Ye

OK. Ale co uzasadnia twoją formułę? Proste kontrole, takie jak przypadek (dla którego twoja formuła mówi nam, że prawdopodobieństwo wynosi , tym samym całkowicie wykluczając inne możliwości!), Wskazują, że jest niepoprawny.

X = 0

$X=0$

1

$1$

— whuber