Chociaż jest to moje własne pytanie, zamierzam również opublikować własne dwa centy jako odpowiedź, aby zwiększyć liczbę perspektyw na to pytanie. Problem polega na tym, czy rozsądnie jest początkowo dopasować rozkład danych do jednego parametru. Gdy używasz rozkładu jednoparametrowego (takiego jak Poisson GLM lub dwumianowy GLM ze stałym parametrem próbnym), wariancja nie jest parametrem wolnym, a zamiast tego jest ograniczona do funkcji średniej. Oznacza to, że odradzanie dopasowania jednoparametrowego rozkładu do danych jest niewskazane w każdej sytuacji, w której nie masz absolutnej pewności, że wariancja jest zgodna ze strukturą tego rozkładu.
Dopasowywanie rozkładów jednoparametrowych do danych jest prawie zawsze złym pomysłem: dane są często bardziej nieporządne niż sugerują to proponowane modele, a nawet jeśli istnieją teoretyczne powody, by sądzić, że dany konkretny model jednoparametrowy może uzyskać, często zdarza się, że dane faktycznie pochodzą z mieszanki tego rozkładu jednego parametru z zakresem wartości parametrów. Jest to często równoważne z szerszym modelem, takim jak rozkład dwuparametrowy, który pozwala na większą swobodę dla wariancji. Jak omówiono poniżej, dotyczy to Poissona GLM w przypadku danych zliczania.
Jak stwierdzono w pytaniu, w większości zastosowań statystyki powszechną praktyką jest stosowanie formularzy dystrybucyjnych, które pozwalają przynajmniej na swobodne zmienianie dwóch pierwszych chwil. Zapewnia to, że dopasowany model pozwala danym dyktować wnioskowaną średnią i wariancję, zamiast sztucznie ograniczać je przez model. Posiadanie tego drugiego parametru traci tylko jeden stopień swobody w modelu, co stanowi niewielką stratę w porównaniu z korzyścią wynikającą z umożliwienia oszacowania wariancji na podstawie danych. Można oczywiście rozszerzyć to rozumowanie i dodać trzeci parametr, aby umożliwić dopasowanie skośności, czwarty, aby umożliwić dopasowanie kurtozy itp.
Z kilkoma bardzo małymi wyjątkami, Poisson GLM jest złym modelem: z mojego doświadczenia, dopasowanie rozkładu Poissona do zliczania danych jest prawie zawsze złym pomysłem. W przypadku danych zliczania niezwykle często wariancja danych jest „nadmiernie rozproszona” w stosunku do rozkładu Poissona. Nawet w sytuacjach, w których teoria wskazuje na rozkład Poissona, często najlepszym modelem jest mieszanina rozkładów Poissona, w których wariancja staje się parametrem swobodnym. Rzeczywiście, w przypadku danych zliczeniowych rozkład ujemno-dwumianowy jest mieszaniną Poissona z rozkładem gamma dla parametru szybkości, więc nawet jeśli istnieją teoretyczne powody, by sądzić, że zliczenia przybywają zgodnie z procesem rozkładu Poissona, często zdarza się, że występuje „nadmierna dyspersja”, a rozkład dwumianowy ujemny pasuje znacznie lepiej.
Praktyka dopasowywania Poissona GLM do zliczania danych, a następnie przeprowadzanie testu statystycznego w celu sprawdzenia „nadmiernej dyspersji” jest anachronizmem i rzadko jest dobrą praktyką. W innych formach analizy statystycznej nie zaczynamy od rozkładu dwuparametrowego, arbitralnie wybieramy ograniczenie wariancji, a następnie testujemy to ograniczenie, aby spróbować wyeliminować parametr z rozkładu. Robiąc to w ten sposób, faktycznie tworzymy niezręczną procedurę hybrydową, składającą się z początkowego testu hipotezy stosowanego do wyboru modelu, a następnie modelu rzeczywistego (Poissona lub szerszego rozkładu). W wielu kontekstach wykazano, że tego rodzaju praktyka tworzenia modeli hybrydowych na podstawie wstępnego testu wyboru modelu prowadzi do złych modeli ogólnych.
Analogiczną sytuacją, w której zastosowano podobną metodę hybrydową, są testy T średniej różnicy. Kiedyś kursy statystyczne zalecały najpierw użycie testu Levene'a (lub nawet o wiele bardziej „bardziej praktycznych” reguł), aby sprawdzić równość wariancji między dwiema populacjami, a następnie, jeśli dane „przeszły” ten test, użyj testu T-Studenta, który zakłada równą wariancję, a jeśli dane „nie przejdą” testu, zamiast tego skorzystaj z testu T-Welcha. To jest naprawdę zła procedura (patrz np. Tutaj i tutaj)). O wiele lepiej jest po prostu użyć drugiego testu, który nie zakłada założenia wariancji, zamiast tworzyć niezręczny test złożony, który blokuje wstępny test hipotezy, a następnie wykorzystuje go do wyboru modelu.
W przypadku danych zliczania generalnie dobre wyniki początkowe uzyskuje się poprzez dopasowanie modelu dwuparametrowego, takiego jak model dwumianowy ujemny lub quasi-Poissona. (Należy zauważyć, że ten ostatni nie jest rzeczywistym rozkładem, ale nadal daje rozsądny model dwuparametrowy.) Jeśli w ogóle konieczne jest jakiekolwiek dalsze uogólnienie, zwykle jest to dodanie inflacji zerowej, w której występuje nadmierna liczba zer w danych. Ograniczenie do Poissona GLM jest sztucznym i bezsensownym wyborem modelu, a nie jest to znacznie lepsze dzięki testom na nadmierną dyspersję.
Okej, teraz są drobne wyjątki: Jedynymi prawdziwymi wyjątkami od powyższych są dwie sytuacje:
(1) Masz wyjątkowo silne teoretyczne powody, by sądzić, że założenia dla rozkładu jednego parametru są spełnione, a częścią analizy jest przetestowanie tego modelu teoretycznego na danych; lub
(2) Z jakiegoś innego (dziwnego) powodu celem twojej analizy jest przeprowadzenie testu hipotezy na temat wariancji danych, a więc naprawdę chcesz ograniczyć tę wariancję do tego hipotetycznego ograniczenia, a następnie przetestować tę hipotezę.
Te sytuacje są bardzo rzadkie. Zwykle powstają one tylko wtedy, gdy istnieje silna wiedza teoretyczna a priori na temat mechanizmu generowania danych, a celem analizy jest sprawdzenie tej leżącej u podstaw teorii. Może tak być w przypadku bardzo ograniczonego zakresu zastosowań, w których dane są generowane w ściśle kontrolowanych warunkach (np. W fizyce).