Regresja Poissona vs. regresja najmniejszych kwadratów?


21

Regresja Poissona jest GLM z funkcją log-link.

Alternatywnym sposobem modelowania danych liczbowych o rozkładzie innym niż normalny jest przetwarzanie wstępne, biorąc dziennik (a raczej dziennik (1 + liczba) do obsługi zer). Jeśli wykonasz regresję metodą najmniejszych kwadratów w odpowiedziach na logarytm, czy jest to związane z regresją Poissona? Czy poradzi sobie z podobnymi zjawiskami?


6
Jak planujesz przyjmować logarytmy o dowolnych zliczeniach, które są zerowe?
whuber

3
Zdecydowanie nie równoważny. Łatwym sposobem na sprawdzenie tego jest sprawdzenie, co by się stało, gdybyś zaobserwował liczbę zerową. (Komentarz utworzony przed obejrzeniem komentarza @ whuber. Najwyraźniej ta strona nie odświeżyła się odpowiednio w mojej przeglądarce).
kardynał

OK, oczywiście powinienem powiedzieć, log (1 + liczba). Oczywiście nie równoważne, ale zastanawiam się, czy istnieje związek lub czy potrafią poradzić sobie z podobnymi zjawiskami.
Brendan OConnor

1
Przydatna jest dyskusja na ten temat tutaj: blog.stata.com/2011/08/22/…
Michael Bishop

Odpowiedzi:


22

Z jednej strony w regresji Poissona lewa strona równania modelu jest logarytmem oczekiwanej liczby: .log(E[Y|x])

Z drugiej strony w „standardowym” modelu liniowym lewa strona to oczekiwana wartość normalnej zmiennej odpowiedzi: . W szczególności funkcja link jest funkcją tożsamości.E[Y|x]

Powiedzmy teraz, że jest zmienną Poissona i że zamierzasz ją znormalizować, przyjmując log: . Ponieważ ma być normalne, planujesz dopasować standardowy model liniowy, dla którego lewą stroną jest . Ale ogólnie . W konsekwencji te dwa podejścia do modelowania są różne.Y = log ( Y ) Y E [ Y | x ] = E [ log ( Y ) | x ] E [ log ( Y ) | x ] log ( E [ Y | x ] )YY=log(Y)YE[Y|x]=E[log(Y)|x]E[log(Y)|x]log(E[Y|x])


6
W rzeczywistości kiedykolwiek, chyba że do pewnego -measurable funkcji , czyli jest w pełni określona przez . P ( Y = f ( X ) | X ) = 1 σ ( X ) f Y XE(log(Y)|X)log(E(Y|X)) P(Y=f(X)|X)=1σ(X)fYX
kardynał

@kardynał. Bardzo dobrze powiedziane.
suncoolsu,

9

Widzę dwie ważne różnice.

Po pierwsze, przewidywane wartości (w oryginalnej skali) zachowują się inaczej; w logicznych liniach najmniejszych kwadratów reprezentują warunkowe środki geometryczne; w modelu log-Poissona reprezentują środki warunkowe. Ponieważ dane w tego rodzaju analizach są często wypaczone w prawo, warunkowa średnia geometryczna nie docenia średniej warunkowej.

Drugą różnicą jest dorozumiany rozkład: lognormalny w porównaniu do Poissona. Odnosi się to do struktury heteroskedastyczności reszt: wariancja resztkowa proporcjonalna do kwadratowych wartości oczekiwanych (lognormalne) w porównaniu do wariancji resztkowej proporcjonalna do wartości oczekiwanej (Poissona).


-1

Jedną oczywistą różnicą jest to, że regresja Poissona da liczby całkowite jako prognozy punktowe, podczas gdy regresja liniowa logarytmiczna może dać liczby całkowite.


12
Jak to działa? Czy GLM nie szacuje oczekiwań , które niekoniecznie są integralne?
whuber

1
To nieprawda. Mechanicznie regresje Poissona doskonale nadają się do obsługi liczb całkowitych. Standardowe błędy nie będą rozprowadzane poissonem, ale zamiast tego można po prostu użyć solidnych standardowych błędów.
Matthew
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.