W modelowaniu danych dotyczących liczby roszczeń w środowisku ubezpieczeniowym zacząłem od Poissona, ale zauważyłem nadmierną dyspersję. Quasi-Poisson lepiej modelował większy związek średniej wariancji niż podstawowy Poisson, ale zauważyłem, że współczynniki były identyczne zarówno w modelach Poissona, jak i Quasi-Poissona.
Jeśli to nie jest błąd, dlaczego tak się dzieje? Jakie są zalety korzystania z Quasi-Poissona nad Poissonem?
Ważne uwagi:
- Straty leżące u podstaw są nadmierne, co (jak sądzę) uniemożliwiło Tweedie działanie - ale to była pierwsza dystrybucja, którą próbowałem. Badałem również modele NB, ZIP, ZINB i Hurdle, ale nadal stwierdziłem, że Quasi-Poisson zapewnia najlepsze dopasowanie.
- Testowałem na nadmierną dyspersję za pomocą testu dyspersji w pakiecie AER. Mój parametr dyspersji wynosił około 8,4, przy wartości p dla wielkości 10 ^ -16.
- Używam glm () z rodzina = poisson lub quasipoisson i link do dziennika dla kodu.
- Podczas uruchamiania kodu Poissona wychodzę z ostrzeżeniami „In dpois (y, mu, log = TRUE): non-integer x = ...”.
Pomocne wątki SE według wskazówek Bena:
counts/exposure
. Należy raczej dodać offset(log(exposure))
termin offset ( ) do swoich modeli.