Szacowanie prawdopodobieństwa w procesie Bernoulliego poprzez próbkowanie aż do 10 awarii: czy jest on stronniczy?

15

Załóżmy, że mamy proces Bernoulliego z prawdopodobieństwem uszkodzenia $q$ (który będzie mały, powiedzmy, $q \leq 0.01$ ), z którego próbkujemy, aż napotkamy $10$ uszkodzeń. W ten sposób, że oszacowania prawdopodobieństwa awarii jak , gdzie jest liczbą próbek. $\hat{q}:=10/N$ $N$

Pytanie : Czy stronniczy oszacowanie od ? A jeśli tak, to czy można to naprawić? $\hat{q}$ $q$

Obawiam się, że naleganie na ostatnią próbkę jest porażką, która podważa szacunki.

estimation bernoulli-distribution

— bekliwy
źródło

5

Obecne odpowiedzi nie kończą się na zapewnieniu estymatora obiektywnego minimalnej wariancji

. Zobacz sekcję próbkowania i szacowania punktów w artykule w Wikipedii na temat ujemnego rozkładu dwumianowego .

(10 - 1) / (N - 1)

$(10-1)/(N-1)$

— A. Webb,

10

Prawdą jest, że jest stronniczy oszacowanie w tym sensie, że , ale nie należy koniecznie niech to powstrzymało cię. Ten dokładny scenariusz można wykorzystać jako krytykę pomysłu, że zawsze powinniśmy używać obiektywnych estymatorów, ponieważ tutaj uprzedzenie jest bardziej artefaktem konkretnego eksperymentu, który akurat przeprowadzamy. Dane wyglądają dokładnie tak, jak gdybyśmy wcześniej wybrali liczbę próbek, więc dlaczego mielibyśmy zmieniać nasze wnioski? $\hat{q}$ $q$ $\text{E}(\hat{q}) \neq q$

Co ciekawe, jeśli miałbyś zbierać dane w ten sposób, a następnie zapisać funkcję prawdopodobieństwa zarówno w modelach dwumianowych (stały rozmiar próbki), jak i ujemnych dwumianowych, okazałoby się, że oba są proporcjonalne względem siebie. Oznacza to, że jest po prostu zwykły szacunek maksymalne prawdopodobieństwo pod ujemnego dwumianowego modelu, co oczywiście jest całkowicie uzasadnione oszacowania. $\hat{q}$

— dsaxton
źródło

Świetny! Wygląda na to (dla moich celów), że to uprzedzenie nie stanowi problemu.

— becky

9

Nie nalega, aby ostatnia próbka była porażką, która podważa oszacowanie, przyjmuje odwrotność $N$

Więc w twoim przykładzie, ale $\mathbb{E}\left[\frac{N}{10}\right] =\frac{1}{q}$ . Zbliża się to do porównania średniej arytmetycznej ze średnią harmoniczną $\mathbb{E}\left[\frac{10}{N}\right] \not = q$

Zła wiadomość jest taka, że odchylenie może wzrosnąć, gdy zmniejsza się, choć niewiele, gdy jest już małe. Dobrą wiadomością jest to, że stronniczość maleje wraz ze wzrostem wymaganej liczby awarii. Wydaje się, że jeśli potrzebujesz awarii , to uprzedzenie jest ograniczone przez mnożnik $q$ $q$ $f$ dla małego; nie chcesz tego podejścia, gdy zatrzymasz się po pierwszej awarii $\frac{f}{f-1}$ $q$

Zatrzymując się po awariach, przy otrzymasz $10$ $q=0.01$ ale $\mathbb{E}\left[\frac{N}{10}\right] = 100$ , natomiast przyotrzymasz $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.011097$ $q=0.001$ ale $\mathbb{E}\left[\frac{N}{10}\right] = 1000$ . Odchylenie około $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.001111$ mnożnik $\frac{10}{9}$

— Henz
źródło

7

$\hat{q}$ $k=10$ $q_0 = 0.02$

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

$\mathbb{E}\left[ \hat{q}\right] \approx 0.022$ $\hat{q}$

— Adrian
źródło

1

To bardzo pomocne. Na tym poziomie nie warto się martwić.

— becky

2

Możesz napisać tę symulację bardziej zwięźle jako10+rnbinom(10000,10,0.02)

— A. Webb

@ A.Webb dziękuję, to dobra uwaga. Naprawdę wymyśliłem koło na nowo. Muszę przeczytać? Rnbinom, a następnie zredagować mój post

— Adrian

1

To by było 10/(10+rnbinom(10000,10,0.02)). Parametryzacja polega raczej na liczbie sukcesów / niepowodzeń niż na całkowitej liczbie prób, więc musisz dodać k = 10 z powrotem. Zauważ, że obiektywny estymator byłby o 9/(9+rnbinom(10000,10,0.02))jeden mniej licznik i mianownik.

— A. Webb,