Modelowanie rozkładu Poissona z nadmierną dyspersją

15

Mam zestaw danych, który spodziewałbym się podążać za rozkładem Poissona, ale jest on rozproszony około 3-krotnie. Obecnie modeluję tę naddyspersję za pomocą czegoś takiego jak następujący kod w R.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

Wizualnie wydaje się, że bardzo dobrze pasuje to do moich danych empirycznych. Jeśli jestem zadowolony z dopasowania, czy jest jakiś powód, dla którego powinienem robić coś bardziej złożonego, na przykład stosując ujemny rozkład dwumianowy, jak opisano tutaj ? (Jeśli tak, to mile widziane będą wszelkie wskazówki lub linki).

Aha, i jestem świadomy, że tworzy to nieco postrzępiony rozkład (z powodu mnożenia przez trzy), ale to nie powinno mieć znaczenia dla mojej aplikacji.

Aktualizacja: Ze względu na każdego, kto szuka i znajduje to pytanie, oto prosta funkcja R do modelowania rozproszonego poissona przy użyciu ujemnego rozkładu dwumianowego. Ustaw d na żądany stosunek średniej / wariancji:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(za pośrednictwem listy mailingowej R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

— chrisamiller
źródło

11

dla rozproszonego poissona użyj ujemnego dwumianu, który pozwala dokładnie sparametryzować wariancję jako funkcję średniej. rnbinom () itp. w R.

— Cyrus S.
źródło

1

Dlaczego ujemny dwumianowy, a nie mieszany model z przypadkowym efektem obserwacyjnym? To nie jest pytanie retoryczne. To jest „Nie rozumiem, który powinienem preferować”. pytanie. Ponadto co się stanie, jeśli mam sytuację z powtarzającymi się środkami? Gdy moje dane są ciągłe, użyję uogólnionego liniowego modelu mieszanego. Rozkład gamma często działa dobrze z ciągłymi danymi biologicznymi, a model mieszany obsługuje element powtarzanych pomiarów. Ale co zrobić, jeśli ktoś rozproszył dane dotyczące liczby powtarzanych pomiarów?

— Bryan

Jednym z powodów, dla których reparametryzowany ujemny model dwumianowy jest popularny w przypadku nadmiernie rozproszonych danych Poissona, jest model b / c, który modeluje wariancję jako funkcję średniej (takiej samej jak w parametrze Poissona) z parametrem nadmiernej dyspersji w celu modelowania wariancji „dodatkowej”. Szybka formuła znajduje się na stronie 487: worldscientific.com/doi/pdf/10.1142/9789813235533_0044 oraz na stronie wikipedia w celu wyjaśnienia reparametryzacji: en.wikipedia.org/wiki/Negative_binomial_distribution

— Samir Rachid Zaim

4

Jeśli twoja średnia wartość Poissona wynosi 1500, oznacza to, że jesteś bardzo zbliżony do rozkładu normalnego; możesz spróbować użyć tego jako przybliżenia, a następnie osobno modelować średnią i wariancję.

— Bogaty
źródło

To tylko przykład - może mieć medianę, która jest znacznie mniejsza, rzędu 200 (zależy to od sposobu podziału danych na partycje). To wykluczałoby użycie normalnego rozkładu, prawda?

— chrisamiller

1

Normalne przybliżenie rozkładu Poissona jest dość solidne, różnica między CDF jest ograniczona przez coś takiego jak 0,75 / sqrt (lambda), jeśli dobrze pamiętam. Nie martwiłbym się zbytnio użyciem lambda = 200, ale jeśli masz większą niechęć do ryzyka, zdecydowanie skorzystaj z ujemnego dwumianu.

— Bogaty