Identyczne współczynniki oszacowane w modelu Poissona vs Quasi-Poissona

W modelowaniu danych dotyczących liczby roszczeń w środowisku ubezpieczeniowym zacząłem od Poissona, ale zauważyłem nadmierną dyspersję. Quasi-Poisson lepiej modelował większy związek średniej wariancji niż podstawowy Poisson, ale zauważyłem, że współczynniki były identyczne zarówno w modelach Poissona, jak i Quasi-Poissona.

Jeśli to nie jest błąd, dlaczego tak się dzieje? Jakie są zalety korzystania z Quasi-Poissona nad Poissonem?

Ważne uwagi:

Straty leżące u podstaw są nadmierne, co (jak sądzę) uniemożliwiło Tweedie działanie - ale to była pierwsza dystrybucja, którą próbowałem. Badałem również modele NB, ZIP, ZINB i Hurdle, ale nadal stwierdziłem, że Quasi-Poisson zapewnia najlepsze dopasowanie.
Testowałem na nadmierną dyspersję za pomocą testu dyspersji w pakiecie AER. Mój parametr dyspersji wynosił około 8,4, przy wartości p dla wielkości 10 ^ -16.
Używam glm () z rodzina = poisson lub quasipoisson i link do dziennika dla kodu.
Podczas uruchamiania kodu Poissona wychodzę z ostrzeżeniami „In dpois (y, mu, log = TRUE): non-integer x = ...”.

Pomocne wątki SE według wskazówek Bena:

— Frank H.
źródło

Czy dystrybucja Tweedie nie byłaby lepszym pomysłem?

— duffymo

Wypróbowałem Tweedie od samego początku, ale nasze dane dotyczące strat nie są ugruntowane, ale raczej w nadmiarze. Wypróbowałem również modele ujemnych dwumianów, ZIP i przeszkód, aby rozwiązać dyspersję zliczania.

— Frank H.

czy możesz wyjaśnić nieco więcej, skąd pochodzą wartości niecałkowite w twoich danych?

— Ben Bolker

nie powinieneś modelować częstotliwości / stawek obliczając współczynniki counts/exposure. Należy raczej dodać offset(log(exposure))termin offset ( ) do swoich modeli.

— Ben Bolker

Jest to praktyczne, choć najważniejsze przy modelowaniu Poissona (nie quasi-Poissona). Nie znam dobrych referencji; jeśli nie możesz znaleźć tutaj odpowiedniej odpowiedzi na CrossValidated, byłoby to dobre pytanie uzupełniające.

— Ben Bolker

To prawie duplikat ; powiązane pytanie wyjaśnia, że nie należy oczekiwać oszacowań współczynników, odchylenia resztkowego ani stopni swobody zmiany. Jedyną rzeczą, która zmienia się przy przechodzeniu z Poissona do quasi-Poissona, jest to, że parametr skali, który został wcześniej ustalony na 1, jest obliczany na podstawie pewnego oszacowania resztkowej zmienności / wad dopasowania (zwykle szacowanego na podstawie sumy kwadratów reszt Pearsona ( $\chi^2$ $p$

$p$

Jak komentujesz powyżej, istnieje wiele różnych podejść do naddyspersji (Tweedie, różne ujemne parametryzacje dwumianowe, quasi-prawdopodobieństwo, zerowa inflacja / zmiana).
Przy współczynniku naddyspersji> 5 (8,4) martwiłbym się trochę, czy wynika to z jakiegoś rodzaju niedopasowania modelu (wartości odstające, zerowa inflacja [które widzę, że już próbowałeś], nieliniowość), a nie niż reprezentowanie wszechstronności. Moje ogólne podejście do tego polega na graficznym badaniu surowych danych i diagnostyce regresji ...

— Ben Bolker
źródło

Bardzo pomocne. Widzę teraz, że wartości p dla zmiennych i poziomów zmiennych w Poissonie są znacznie bardziej istotne statystycznie niż w przypadku Quasi-Poissona, ze względu na wspomniane skalowanie. Testowałem na wartości odstające, ale nie uważałem tego za problem. Jakie mogą być inne problemy maskowane przez nadmierną dyspersję lub przykłady takich podejść w celu znalezienia tych problemów?

— Frank H.

Przeważnie nieliniowość odpowiedzi w skali linków (logów); sprawdź wykresy wartości resztkowych względem dopasowanych i wykresów wartości resztowych względem predyktorów, aby sprawdzić, czy istnieją wzorce.

— Ben Bolker

+1 Ładnie rozplanowane! Naprawdę doceniam jasność twojego pierwszego akapitu.

— Alexis