Jak działa rozkład Poissona podczas modelowania ciągłych danych i czy powoduje utratę informacji?


20

Współpracownik analizuje niektóre dane biologiczne pod kątem swojej pracy doktorskiej z pewną nieprzyjemną heteroscedastycznością (rysunek poniżej). Analizuje to za pomocą modelu mieszanego, ale nadal ma problemy z resztkami.

Logarytmiczne przekształcanie zmiennych odpowiedzi czyści wszystko i na podstawie informacji zwrotnych na to pytanie wydaje się to właściwe podejście. Początkowo sądziliśmy jednak, że wystąpiły problemy z użyciem transformowanych zmiennych w modelach mieszanych. Okazuje się, że błędnie zinterpretowaliśmy stwierdzenie w SAS Littell & Milliken (2006) dla modeli mieszanych, które wskazywało, dlaczego niewłaściwe jest przekształcanie danych zliczania, a następnie analizowanie ich za pomocą normalnego liniowego modelu mieszanego (pełny cytat poniżej) .

Podejście, które poprawiło również wartości resztkowe, polegało na zastosowaniu uogólnionego modelu liniowego z rozkładem Poissona. Czytałem, że rozkład Poissona można wykorzystać do modelowania ciągłych danych (np. Jak omówiono w tym poście ), a pakiety statystyk na to pozwalają, ale nie rozumiem, co się stanie, gdy model będzie pasował.

W celu zrozumienia, w jaki sposób wykonywane są obliczenia, moje pytania brzmią: kiedy dopasujesz rozkład Poissona do danych ciągłych, 1) czy dane są zaokrąglane do najbliższej liczby całkowitej 2) czy powoduje to utratę informacji i 3) Kiedy, jeśli w ogóle, właściwe jest stosowanie modelu Poissona dla ciągłych danych?

Littel & Milliken 2006, str. 529 "transformacja danych [zliczania] może przynieść efekt przeciwny do zamierzonego. Na przykład transformacja może zniekształcić rozkład efektów modelu losowego lub liniowość modelu. Co ważniejsze, transformacja danych wciąż pozostawia otwartą możliwość negatywnych przewidywanych zliczeń. W związku z tym wnioskowanie na podstawie modelu mieszanego z wykorzystaniem przekształconych danych jest wysoce podejrzane ”.

wprowadź opis zdjęcia tutaj


1
Podobnie jak @Tomas nie znam powodu, dla którego nie powinieneś przekształcać zmiennych przed modelem mieszanym, i przeczytałem sporo na ten temat. Mam książkę Ramon i Littel .... do której strony się odwołujesz?
Peter Flom - Przywróć Monikę

Okazuje się, że źle interpretowaliśmy oświadczenie na stronie 529.
N Brouwer

Odpowiedzi:


22

Dość często oceniam ciągły pozytywny wynik regresji Poissona za pomocą liniowego estymatora wariancji Huber / White / Sandwich. Nie jest to jednak szczególnie dobry powód, aby cokolwiek robić, więc oto kilka faktycznych odniesień.

y

Istnieją również zachęcające dowody symulacyjne z Santos Silva i Tenreyro (2006), gdzie Poisson pojawia się w najlepszym pokazie. Sprawdza się również w symulacji z dużą ilością zer w wyniku . Możesz również z łatwością wykonać własną symulację, aby przekonać się, że działa to w przypadku płatka śniegu.

Na koniec możesz także użyć GLM z funkcją łączenia logów i rodziny Poisson. Daje to identyczne wyniki i łagodzi reakcje szarpnięcia kolana oparte wyłącznie na danych.

Referencje bez nieoznaczonych linków:

Gourieroux, C., A. Monfort i A. Trognon (1984). „Metody pseudo maksymalnego prawdopodobieństwa: zastosowania w modelach Poissona”, Econometrica , 52, 701-720.


2
Zobacz także ten fajny wpis na blogu Stata napisany przez Billa Goulda - blog.stata.com/2011/08/22/…
boscovich

1
y

Istnieje podobny post na blogu Stata, który oferuje dodatkowe dowody symulacji .
Dimitriy V. Masterov

6

Rozkład Poissona dotyczy tylko danych zliczających, próba karmienia go ciągłymi danymi jest paskudna i uważam, że nie należy tego robić. Jednym z powodów jest to, że nie wiesz, jak skalować zmienną ciągłą. A Poisson zależy w dużej mierze od skali! Próbowałem to wyjaśnić tutaj prostym przykładem . Tylko z tego powodu nie używałbym Poissona do niczego innego niż zliczanie danych.

Pamiętaj również, że GLM wykonuje 2 rzeczy - funkcję link (przekształcanie zmiennej odpowiedzi, logowanie w przypadku Poissona) i resztki (w tym przypadku rozszczepienie Poissona). Pomyśl o zadaniu biologicznym, o pozostałościach, a następnie wybierz odpowiednią metodę. Czasami warto użyć transformacji logów, ale pozostań przy normalnie rozłożonych resztach.

„ale wydaje się, że konwencjonalna mądrość mówi, że nie należy przekształcać danych wprowadzanych do modelu mieszanego”

Słyszę to pierwszy raz! To nie ma dla mnie żadnego sensu. Model mieszany może być jak zwykły model liniowy, z dodatkowymi efektami losowymi. Czy możesz tutaj podać dokładny cytat? Moim zdaniem, jeśli transformacja logów wyczyści wszystko, po prostu użyj jej!


Dzięki za pomoc; to, co uważałem za „konwencjonalną mądrość”, było błędnym odczytaniem Littela i Millikena. Zredagowałem swoje pytanie i dodałem cytat z L&M 2006.
N Brouwer

@NBrouwer: tak, wygląda na to, że faktycznie źle to zinterpretowałeś. Paskudne jest przekształcanie danych zliczających, a jeszcze bardziej nieprzyjemne jest przekształcanie ciągłych danych do zliczania danych i próby dopasowania do nich Poissona! Właśnie to próbowałem ci wyjaśnić. Nie rób tego Po prostu loguj i przekształcaj swoje ciągłe dane według potrzeb. Jest to bardzo powszechne w statystykach, nie musisz się tym martwić.
Ciekawy

5

Oto kolejna świetna dyskusja na temat używania modelu Poissona w celu dopasowania regresji dziennika: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Mówię przyjacielowi, tak jak sugeruje wpis na blogu). Podstawowym założeniem jest to, że używamy tylko tej części modelu Poissona, która jest linkiem dziennika. Część, która wymaga wariancji równej średniej, można zastąpić kanapkowym oszacowaniem wariancji. To wszystko dotyczy jednak danych iid; Dimitriy Masterov poprawnie przywołał rozszerzenia modelu klastrowego / mieszanego .


1

Jeśli problemem jest skalowanie wariancji ze średnią, ale masz ciągłe dane, czy zastanawiałeś się nad zastosowaniem ciągłych rozkładów, które mogą uwzględniać występujące problemy? Być może gamma? Wariancja będzie miała kwadratowy związek ze średnią - tak naprawdę jak ujemny dwumian.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.