Dlaczego regresja Poissona jest używana do zliczania danych?

33

Rozumiem, że w przypadku niektórych zestawów danych, takich jak głosowanie, wyniki są lepsze. Dlaczego regresję Poissona stosuje się zamiast zwykłej regresji liniowej lub regresji logistycznej? Jaka jest motywacja matematyczna?

count-data poisson-regression

— zaxtax
źródło

Zobacz moją odpowiedź na ten post, aby zobaczyć inny punkt widzenia: stats.stackexchange.com/questions/142338/…

— kjetil b halvorsen

51

Rozproszone dane Poissona mają wewnętrzną wartość całkowitą, co ma sens w przypadku danych zliczanych. Zwykłe najmniejsze kwadraty (OLS, które nazywamy „regresją liniową”) zakładają, że prawdziwe wartości są zwykle rozmieszczone wokół wartości oczekiwanej i mogą przyjmować dowolną rzeczywistą wartość, dodatnią lub ujemną, liczbę całkowitą lub ułamkową, cokolwiek. Wreszcie regresja logistyczna działa tylko w przypadku danych o wartości 0-1 (o wartości PRAWDA-FAŁSZ), takich jak „ma chorobę” kontra „nie ma choroby”. Dlatego rozkład Poissona jest najbardziej sensowny dla danych zliczających.

To powiedziawszy, rozkład normalny jest często raczej dobrym przybliżeniem do rozkładu Poissona dla danych o średniej powyżej około 30. A w ramach regresji, w której masz predyktory wpływające na liczbę, OLS z jego normalnym rozkładem może być łatwiejszy do dopasowania i faktycznie byłby bardziej ogólny, ponieważ rozkład i regresja Poissona zakładają, że średnia i wariancja są równe, podczas gdy OLS radzi sobie z nierównymi średnimi i wariancjami - dla modelu danych z liczeniem z różnymi średnimi i wariancjami można na przykład zastosować ujemny rozkład dwumianowy .

— S. Kolassa - Przywróć Monikę
źródło

17

Zauważ, że samo dopasowanie za pomocą OlS nie wymaga normalności - wtedy, gdy wnioskujesz o parametrach, potrzebujesz normalnego założenia rozkładu

— Dason

1

@Dason: Poprawiłem się.

— S. Kolassa - Przywróć Monikę

3

Jeśli użyjesz estymatora wariancji Huber / White / Sandwich, możesz rozluźnić założenie średniej wariancji

— Dimitriy V. Masterov

@Dason Chociaż nie jest to bezwzględnie wymagane, użycie odpowiedniej formy modelu do tego, co pasujesz, prawie zawsze daje lepsze oszacowanie i możesz to zobaczyć na wykresach reszt.

— Joe

24

Zasadniczo dzieje się tak, ponieważ regresja liniowa i logistyczna przyjmuje błędne założenia dotyczące tego, jak wyglądają wyniki zliczania. Wyobraź sobie swój model jako bardzo głupiego robota, który będzie bezlitośnie podążał za twoimi rozkazami, bez względu na to, jak nonsensowne są te rozkazy; całkowicie brakuje możliwości oceny tego, co mówisz. Jeśli powiesz robotowi, że coś w rodzaju głosów jest rozdzielane w sposób ciągły od ujemnej nieskończoności do nieskończoności, tak właśnie uważa głosy i może dać ci bezsensowne prognozy (Ross Perot otrzyma -10,469 głosów w nadchodzących wyborach).

I odwrotnie, rozkład Poissona jest dyskretny i dodatni (lub zero ... zero liczy się jako dodatnie, tak?). Co najmniej zmusi to twojego robota do udzielenia odpowiedzi, które mogłyby się zdarzyć w prawdziwym życiu. Mogą to być dobre odpowiedzi lub nie , ale przynajmniej zostaną one wyciągnięte z możliwego zestawu „liczby oddanych głosów”.

Oczywiście Poisson ma swoje własne problemy: zakłada, że średnia zmiennej liczby głosów będzie również taka sama jak jej wariancja. Nie wiem, czy kiedykolwiek widziałem nieskomplikowany przykład, w którym było to prawdą. Na szczęście bystrzy ludzie wymyślili inne rozkłady, które są również dodatnie i dyskretne, ale które dodają parametry, aby umożliwić wariancję, er, zmieniają się (np. Ujemna regresja dwumianowa).

— Matt Parker
źródło

5

Matematycznie, jeśli zaczniesz od prostego założenia, że prawdopodobieństwo wystąpienia zdarzenia w zdefiniowanym przedziale wynosi , możesz pokazać oczekiwaną liczbę zdarzeń w przedziale wynosi , wariancja jest również a rozkład prawdopodobieństwa wynosi $T = 1$ $\lambda$ $T = t$ $\lambda.t$ $\lambda.t$

p (N = n) = \frac{(λ . t)^{n} e^{- λ . t}}{n!}

$p(N=n) = \frac{(\lambda.t)^{n}e^{-\lambda.t}}{n!}$

Za pomocą tej i metody największej wiarygodności i uogólnionych modeli liniowych (lub innej metody) dochodzisz do regresji Poissona .

Mówiąc prosto, regresja Poissona jest modelem, który pasuje do założeń leżącego u podstaw losowego procesu generującego niewielką liczbę zdarzeń z szybkością (tj. Liczbą na jednostkę czasu) określoną przez inne zmienne w modelu.

— Thylacoleo
źródło

3

Inni w zasadzie powiedzieli to samo, ale zamierzam dodać swoje zdanie. Zależy to od tego, co dokładnie robisz, ale często lubimy konceptualizować problem / dane. Jest to nieco inne podejście niż budowanie modelu, który dość dobrze przewiduje. Jeśli próbujemy konceptualizować, co się dzieje, sensowne jest modelowanie danych zliczeń przy użyciu rozkładu nieujemnego, który określa masę tylko jako wartości całkowite. Mamy też wiele wyników, które w zasadzie sprowadzają się do stwierdzenia, że w pewnych warunkach liczyć dane naprawdę jestdystrybuowane jako poisson. Jeśli więc naszym celem jest konceptualizacja problemu, naprawdę sensowne jest użycie poissona jako zmiennej odpowiedzi. Inni wskazywali inne powody, dla których jest to dobry pomysł, ale jeśli naprawdę próbujesz konceptualizować problem i naprawdę rozumiesz, w jaki sposób można generować dane, które widzisz, wówczas użycie regresji Poissona ma sens w niektórych sytuacjach.

— Dason
źródło

2

Rozumiem przede wszystkim dlatego, że liczby są zawsze dodatnie i dyskretne, Poisson może podsumować takie dane za pomocą jednego parametru. Głównym problemem jest to, że wariancja jest równa średniej.