Wybór alternatywy dla regresji Poissona dla danych zliczonych w rozproszeniu

Obecnie analizuję dane z serii eksperymentów behawioralnych, które wykorzystują następującą miarę. Uczestnicy tego eksperymentu proszeni są o wybranie wskazówek, które (fikcyjne) inne osoby mogłyby wykorzystać do rozwiązania serii 10 anagramów. Uczestnicy są przekonani, że ci inni ludzie albo zyskają, albo stracą pieniądze, w zależności od ich wyników w rozwiązywaniu anagramów. Wskazówki różnią się pod względem stopnia ich przydatności. Na przykład dla anagramu NUNGRIN, anagramu BIEGANIA, trzy wskazówki mogą być następujące:

Poruszanie się szybko (nieprzydatne)
Co robisz w maratonie (pomocne)
Nie zawsze zdrowe hobby (nieprzydatne)

Aby utworzyć miarę, liczę, ile razy (z 10) uczestnik wybiera nieprzydatną wskazówkę dla drugiej osoby. W eksperymentach używam różnych manipulacji, aby wpłynąć na przydatność wskazówek, które wybierają ludzie.

Ponieważ miara przydatności / nieprzydatności jest dość silnie pozytywnie wypaczona (duża część ludzi zawsze wybiera 10 najbardziej pomocnych wskazówek), a ponieważ miarą jest zmienna zliczająca, do analizy tych danych używałem Uogólnionego Modelu Liniowego Poissona. Jednak, gdy trochę poczytałem o regresji Poissona, odkryłem, że ponieważ regresja Poissona nie szacuje niezależnie średniej i wariancji rozkładu, często nie docenia wariancji w zbiorze danych. Zacząłem badać alternatywy dla regresji Poissona, takie jak regresja quasipoissona lub regresja dwumianowa ujemna. Przyznaję jednak, że jestem raczej nowy w tego typu modelach, więc przychodzę tutaj po porady.

Czy ktoś ma jakieś zalecenia dotyczące tego, jakiego modelu użyć do tego rodzaju danych? Czy są jeszcze jakieś względy, o których powinienem wiedzieć (na przykład, czy jeden konkretny model ma większą moc niż inny?)? Jakiego rodzaju diagnostykę należy sprawdzić, aby ustalić, czy wybrany model odpowiednio obsługuje moje dane?

poisson-distribution count-data

— Patrick S. Forscher
źródło

Co powiesz na solidny estymator wariancji / kowariancji, który rozluźni założenie, że wariancja jest równa średniej?

— boscovich

Ponieważ są to dane zliczające i nieujemne, co z modelem quassi-poissona lub ujemnym modelem regresji dwumianowej, który odpowiada za dyspersję?

— Arun

Zastanawiałem się nad zastosowaniem modelu quasi-poissona lub modelu dwumianowego ujemnego, ale nie rozumiem, na jakiego rodzaju przekątności patrzeć, aby upewnić się, że odpowiednio modeluję swoje dane. Ponieważ istnieje kilka alternatyw (modele quasi-poissona, dwumianowy ujemny i modele z zerowym rozszerzeniem), zastanawiam się również, czy istnieje dobry sposób wyboru między tymi alternatywami. Na przykład, czy jedna metoda jest na ogół silniejsza niż inne?

— Patrick S. Forscher

To zależy od danych. Dlaczego nie dopasujesz ich wszystkich do swoich danych (Poisson, ujemny dwumianowy, zero-napompowany Poisson i ujemny dwumianowy, modele przeszkodowe dla tych, których dotyczy pytanie) i porównasz je za pomocą powiedzmy, AIC lub BIC? Zobacz cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf Następnie wybierz ten, który najlepiej pasuje do twoich danych. Możesz także użyć modeli quasi-prawdopodobieństwa, ale to kwestia gustu, nie lubię ich tak bardzo.

— Momo

Aby sprawdzić, jaki rozkład może być dobrym modelem dla twojej odpowiedzi, możesz użyć funkcji vcd :: distplot.

— Momo

Odpowiedzi:

Twój wynik to liczba pomocnych wskazówek na 10, która jest dwumianową zmienną losową. Powinieneś więc to przeanalizować za pomocą pewnego rodzaju regresji dwumianowej, prawdopodobnie quasi-dwumianowej, aby umożliwić nadmierną dyspersję. Zauważ, że Poisson i myląco nazwane ujemne rozkłady dwumianowe są odpowiednie dla nieograniczonych danych zliczeniowych.

— Aniko
źródło

Wspomniałem o dwumianu ujemnym, ponieważ jest to rozproszona alternatywa dla Poissona, którą początkowo sugerował poser. Ponieważ każdy respondent ma x / 10 wskazówek, może być dwumianowy, ale dla każdego z 10 wskazówek istnieje stałe prawdopodobieństwo pi dla i-tego respondenta, a zdarzenia są niezależne. Może tak być.

— Michael R. Chernick

beta-dwumianowa to kolejna możliwość (beta-dwumianowa jest dwumianowa, podobnie jak dwumianowa ujemna względem Poissona). betabinw aodpakiecie to zrobi.

— Ben Bolker

Ja również poleciłbym spojrzeć na ujemny dwumian, gdyby możliwe wyniki były nieskończone, jak w przypadku Poissona. Możesz zajrzeć do jednej z książek Joe Hilbe. Ma jeden na GEE i jeden na ujemnej regresji dwumianowej, co kontrastuje z regresją Poissona. Ale jak wskazał Aniko, jest tylko 10 wskazówek, więc każdy respondent może mieć tylko 0, 1, 2, 3, ..., 10, a zatem ani Poisson, ani ujemny wykładniczy nie jest odpowiedni.

— Michael R. Chernick
źródło

Dobry punkt autorstwa @Aniko. Innym wyborem jest regresja Beta. Był artykuł zatytułowany „A Better Lemon Squeezer”, który zawierał wiele informacji na temat tej metody.

— Peter Flom - Przywróć Monikę
źródło

Ale beta byłby używany do modelowania proporcji, a nie zmiennej zliczania na skończonym zbiorze liczb całkowitych.

— Michael R. Chernick

Ma szersze zastosowania, @MichaelChernick, zobacz artykuł, który jest całkiem dobry.

— Peter Flom - Przywróć Monikę

@PeterFlom Nie może również obsługiwać danych w przedziale [0,1], tylko (0,1).

— colin