Regresja Poissona z dużymi danymi: czy zmiana jednostki miary jest błędna?


17

Ze względu na silnię w rozkładzie Poissona oszacowanie modeli Poissona (na przykład przy użyciu maksymalnego prawdopodobieństwa) staje się niepraktyczne, gdy obserwacje są duże. Na przykład, jeśli próbuję oszacować model wyjaśniający liczbę samobójstw w danym roku (dostępne są tylko dane roczne) i powiedzmy, że są tysiące samobójstw każdego roku, czy błędne jest wyrażanie samobójstw w setkach , więc 2998 wyniesie 29,98 ~ = 30? Innymi słowy, czy błędem jest zmiana jednostki miary, aby dane były możliwe do zarządzania?

Odpowiedzi:


15

Kiedy mamy do czynienia z rozkładem Poissona z dużymi wartościami \ lambda (jego parametr), często stosuje się normalne przybliżenie do rozkładu Poissona.

Jak wspomina ta strona , w porządku jest użycie normalnego przybliżenia, gdy \ lambda przekroczy 20, a przybliżenie poprawi się, gdy \ lambda będzie jeszcze wyższa.

Rozkład Poissona jest definiowany tylko w przestrzeni stanu składającej się z nieujemnych liczb całkowitych, więc przeskalowanie i zaokrąglenie wprowadzi dziwne rzeczy do twoich danych.

Używając normalnego ok. dla dużych statystyk Poissona jest BARDZO powszechne.


6

W przypadku Poissona jest źle, ponieważ liczy się liczba - ich jednostka jest jednością. Z drugiej strony, jeśli użyjesz zaawansowanego oprogramowania, takiego jak R, jego funkcje obsługi Poissona będą świadome tak dużych liczb i użyją pewnych sztuczek numerycznych do ich obsługi.

Oczywiście zgadzam się, że normalne zbliżenie jest kolejnym dobrym podejściem.


3

Większość pakietów statystycznych ma funkcję do bezpośredniego obliczania logarytmu naturalnego silni (np. Funkcja lfactorial () w R, funkcja lnactorial () w Stata). Umożliwia to włączenie stałego terminu do prawdopodobieństwa dziennika, jeśli chcesz.


Ponadto n!= = Gamma(n+1)n> = 0. Spróbuj więc wyszukać funkcję wywoływaną, Gammajeśli chcesz obliczyć silnię (lub log Gamma, jeśli obliczasz prawdopodobieństwo logarytmu)
Andre Holzner

3

Obawiam się, że nie możesz tego zrobić. Jak stwierdza @Baltimark, przy dużej lambdzie rozkład będzie miał bardziej normalny kształt (symetryczny), a po skalowaniu nie będzie już rozproszenia poissona. Wypróbuj następujący kod w R:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

Wynik jest poniżej:

wprowadź opis zdjęcia tutaj

Widać, że przeskalowany w dół Poissona (czerwona linia) jest zupełnie inny niż rozkład Poissona.


1

Możesz po prostu zignorować „silnia”, gdy używasz największego prawdopodobieństwa. Oto uzasadnienie twojego przykładu samobójstwa. Pozwolić:

λ: Bądź oczekiwaną liczbą samobójstw rocznie

k i : być liczbą samobójstw w roku i.

Następnie zmaksymalizujesz prawdopodobieństwo dziennika jako:

LL = ∑ (k i log (λ) - λ - k i !)

Maksymalizacja powyższego jest równoznaczna z maksymalizacją następujących jako k i ! jest stałą:

LL ' = ∑ (k i log (λ) - λ)

Czy może wyjaśnić, dlaczego silnia jest problemem? Czy coś brakuje?


Coś nie umknie, jeśli wszystko, co próbujesz zrobić, to oszacować parametr na podstawie zestawu obserwacji. To zdecydowanie była główna idea pytania PO. Jednak pytała także ogólnie (jeśli nie rygorystycznie) „jak oszacować modele Poissona”. Być może chce poznać wartość pliku pdf w określonym punkcie. W takim przypadku normalne ok. prawdopodobnie będzie lepsza niż skalowanie parametru i obserwacji o 100 lub cokolwiek innego, jeśli obserwacje są wystarczająco duże, aby obliczenie czynnikowe było niepraktyczne.
Baltimark,

1
@Sikikant, masz rację, aby oszacować parametry silnia nie jest problemem, ale ogólnie będziesz potrzebować wartości prawdopodobieństwa dla danego modelu i do tego musiałbyś użyć silni. Ponadto do testowania hipotez (np. Testu współczynnika wiarygodności) potrzebna będzie wartość prawdopodobieństwa.
Vivi,

@Baltimark: tak, chcę ogólnie wiedzieć, czy można zmienić jednostkę miary Poissona. Zadano mi to pytanie i nie wiedziałem, co powiedzieć.
Vivi,

@Vivi: Nie jestem pewien, dlaczego chcesz obliczyć prawdopodobieństwo za pomocą k_i! uwzględnione, jak w większości aplikacji (np. test współczynnika wiarygodności, oszacowanie bayesowskie), stała nie będzie miała znaczenia. W każdym razie nie sądzę, aby można było przeskalować zgodnie z sugestią. Jeśli czuję inaczej, zaktualizuję swoją odpowiedź.

@Sikikant, rozumiem twój punkt widzenia, ale niektóre programy (na przykład Eviews) domyślnie to uwzględniają, a duże liczby to problem, który ci się podoba lub nie. Wydaje mi się, że naprawdę szukałem wyjaśnienia, dlaczego możesz to zrobić, ale nie mogłem tego obejść, ale dyskusja była ciekawa i pouczająca :)
Vivi
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.