Dlaczego regresja Poissona jest używana do zliczania danych?


Odpowiedzi:


51

Rozproszone dane Poissona mają wewnętrzną wartość całkowitą, co ma sens w przypadku danych zliczanych. Zwykłe najmniejsze kwadraty (OLS, które nazywamy „regresją liniową”) zakładają, że prawdziwe wartości są zwykle rozmieszczone wokół wartości oczekiwanej i mogą przyjmować dowolną rzeczywistą wartość, dodatnią lub ujemną, liczbę całkowitą lub ułamkową, cokolwiek. Wreszcie regresja logistyczna działa tylko w przypadku danych o wartości 0-1 (o wartości PRAWDA-FAŁSZ), takich jak „ma chorobę” kontra „nie ma choroby”. Dlatego rozkład Poissona jest najbardziej sensowny dla danych zliczających.

To powiedziawszy, rozkład normalny jest często raczej dobrym przybliżeniem do rozkładu Poissona dla danych o średniej powyżej około 30. A w ramach regresji, w której masz predyktory wpływające na liczbę, OLS z jego normalnym rozkładem może być łatwiejszy do dopasowania i faktycznie byłby bardziej ogólny, ponieważ rozkład i regresja Poissona zakładają, że średnia i wariancja są równe, podczas gdy OLS radzi sobie z nierównymi średnimi i wariancjami - dla modelu danych z liczeniem z różnymi średnimi i wariancjami można na przykład zastosować ujemny rozkład dwumianowy .


17
Zauważ, że samo dopasowanie za pomocą OlS nie wymaga normalności - wtedy, gdy wnioskujesz o parametrach, potrzebujesz normalnego założenia rozkładu
Dason

1
@Dason: Poprawiłem się.
S. Kolassa - Przywróć Monikę

3
Jeśli użyjesz estymatora wariancji Huber / White / Sandwich, możesz rozluźnić założenie średniej wariancji
Dimitriy V. Masterov

@Dason Chociaż nie jest to bezwzględnie wymagane, użycie odpowiedniej formy modelu do tego, co pasujesz, prawie zawsze daje lepsze oszacowanie i możesz to zobaczyć na wykresach reszt.
Joe

24

Zasadniczo dzieje się tak, ponieważ regresja liniowa i logistyczna przyjmuje błędne założenia dotyczące tego, jak wyglądają wyniki zliczania. Wyobraź sobie swój model jako bardzo głupiego robota, który będzie bezlitośnie podążał za twoimi rozkazami, bez względu na to, jak nonsensowne są te rozkazy; całkowicie brakuje możliwości oceny tego, co mówisz. Jeśli powiesz robotowi, że coś w rodzaju głosów jest rozdzielane w sposób ciągły od ujemnej nieskończoności do nieskończoności, tak właśnie uważa głosy i może dać ci bezsensowne prognozy (Ross Perot otrzyma -10,469 głosów w nadchodzących wyborach).

I odwrotnie, rozkład Poissona jest dyskretny i dodatni (lub zero ... zero liczy się jako dodatnie, tak?). Co najmniej zmusi to twojego robota do udzielenia odpowiedzi, które mogłyby się zdarzyć w prawdziwym życiu. Mogą to być dobre odpowiedzi lub nie , ale przynajmniej zostaną one wyciągnięte z możliwego zestawu „liczby oddanych głosów”.

Oczywiście Poisson ma swoje własne problemy: zakłada, że ​​średnia zmiennej liczby głosów będzie również taka sama jak jej wariancja. Nie wiem, czy kiedykolwiek widziałem nieskomplikowany przykład, w którym było to prawdą. Na szczęście bystrzy ludzie wymyślili inne rozkłady, które są również dodatnie i dyskretne, ale które dodają parametry, aby umożliwić wariancję, er, zmieniają się (np. Ujemna regresja dwumianowa).


5

Matematycznie, jeśli zaczniesz od prostego założenia, że ​​prawdopodobieństwo wystąpienia zdarzenia w zdefiniowanym przedziale wynosi , możesz pokazać oczekiwaną liczbę zdarzeń w przedziale wynosi , wariancja jest również a rozkład prawdopodobieństwa wynosiT=1λT=tλ.tλ.t

p(N=n)=(λ.t)neλ.tn!

Za pomocą tej i metody największej wiarygodności i uogólnionych modeli liniowych (lub innej metody) dochodzisz do regresji Poissona .

Mówiąc prosto, regresja Poissona jest modelem, który pasuje do założeń leżącego u podstaw losowego procesu generującego niewielką liczbę zdarzeń z szybkością (tj. Liczbą na jednostkę czasu) określoną przez inne zmienne w modelu.


3

Inni w zasadzie powiedzieli to samo, ale zamierzam dodać swoje zdanie. Zależy to od tego, co dokładnie robisz, ale często lubimy konceptualizować problem / dane. Jest to nieco inne podejście niż budowanie modelu, który dość dobrze przewiduje. Jeśli próbujemy konceptualizować, co się dzieje, sensowne jest modelowanie danych zliczeń przy użyciu rozkładu nieujemnego, który określa masę tylko jako wartości całkowite. Mamy też wiele wyników, które w zasadzie sprowadzają się do stwierdzenia, że w pewnych warunkach liczyć dane naprawdę jestdystrybuowane jako poisson. Jeśli więc naszym celem jest konceptualizacja problemu, naprawdę sensowne jest użycie poissona jako zmiennej odpowiedzi. Inni wskazywali inne powody, dla których jest to dobry pomysł, ale jeśli naprawdę próbujesz konceptualizować problem i naprawdę rozumiesz, w jaki sposób można generować dane, które widzisz, wówczas użycie regresji Poissona ma sens w niektórych sytuacjach.


2

Rozumiem przede wszystkim dlatego, że liczby są zawsze dodatnie i dyskretne, Poisson może podsumować takie dane za pomocą jednego parametru. Głównym problemem jest to, że wariancja jest równa średniej.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.