Kiedy stosować solidne standardowe błędy w regresji Poissona?

Korzystam z modelu regresji Poissona do zliczania danych i zastanawiam się, czy istnieją powody, aby nie używać solidnego standardowego błędu do szacowania parametrów? Jestem szczególnie zaniepokojony, ponieważ niektóre z moich szacunków bez solidnej nie są znaczące (np. P = 0,13), ale z solidną są znaczące (p <0,01).

W SAS jest to dostępne przy użyciu powtarzanej instrukcji w proc genmod(np repeated subject=patid;.). Korzystam z http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm jako przykładu przytaczającego artykuł Camerona i Trivedi (2009) na poparcie stosowania solidnych standardowych błędów.

poisson-distribution robust

— kara
źródło

Odpowiedzi:

Ogólnie rzecz biorąc, jeśli masz jakiekolwiek podejrzenia, że twoje błędy są heteroskedastyczne, powinieneś użyć solidnych standardowych błędów. Fakt, że twoje szacunki stają się nieistotne, gdy nie używasz solidnych SE, sugeruje (ale nie dowodzi) potrzebę solidnych SE! Te SE są „odporne” na obciążenie, które może powodować heteroskedastyczność w uogólnionym modelu liniowym.

Ta sytuacja jest nieco inna, ponieważ nakładasz je na regresję Poissona.

Poisson ma dobrze znaną właściwość, która zmusza dyspersję do równości średniej, niezależnie od tego, czy dane ją obsługują. Przed rozważeniem solidnych standardowych błędów spróbowałbym regresji ujemnej dwumianowej, która nie cierpi z powodu tego problemu. Istnieje test (patrz komentarz), który pomaga ustalić, czy wynikowa zmiana w standardowych błędach jest znacząca.

Nie wiem na pewno, czy zmiana, którą widzisz (przejście na solidne SE zawęża CI), oznacza niedostateczną dyspersję, ale wydaje się prawdopodobne. Spójrz na odpowiedni model (myślę, że dwumian ujemny, ale szybkie googling sugeruje również quasi-Poissona za niedostateczne rozproszenie?) I zobacz, co otrzymujesz w tym ustawieniu.

— Ari B. Friedman
źródło

Niezła odpowiedź! Zwykle w OLS heteroskedastyczność nie powoduje, że parametry są obiektywne (jedynie nieefektywne). Nie jest to jednak prawdą w przypadku uogólnionych modeli liniowych, zapoznaj się z tym postem Dave'a Gilesa w celach informacyjnych. Nie sądzę jednak, że widziałem zalecany do tego test Vuonga (dla porównań nie zagnieżdżonych modeli z napompowaniem zerowym widziałem, że to sugeruje). Poisson jest zagnieżdżony w Neg. Model dwumianowy, dlatego można zastosować test współczynnika prawdopodobieństwa dla parametru dyspersji.

— Andy W

Dziękuję za odpowiedź. Próbowałem ujemnej regresji dwumianowej, ale natknąłem się na ostrzeżenie: „Względne kryterium zbieżności Hesji wynoszące 0,0046138565 jest większe niż granica 0,0001. Zbieżność jest wątpliwa”. Zauważ, że moją zmienną odpowiedzi jest liczba z wartościami od 0 do 4. Czy istnieje transformacja zmiennej zależnej lub niezależnej, która pomogłaby w zbieżności? Lub co robi się w tym przypadku?

— kara

Również w związku z tym, że nietrwałe SE są mniejsze - w mojej analizie widzę, że to solidne SE są mniejsze i to tutaj leży znaczenie (nie w nietrwałych wynikach). Dlatego chcę być ostrożny, czy zgłaszać solidne wyniki - nie chcę wybierać tej metody tylko ze względu na znaczące wartości! Dzięki jeszcze raz!

— kara

@AndyW Sprawdziłem swoje notatki i Vuong rzeczywiście jest dla ZI kontra Poisson. Zaktualizowany post. kara Przegapiłem odwrócenie. Mogłeś mieć niedostatecznie rozproszone dane, w takim przypadku NBD jest również potencjalnie rozwiązaniem :-)

— Ari B. Friedman,

@kara Trudno zdiagnozować problem braku konwergencji w komentarzach. Spróbuję tylko nowego pytania z taką ilością informacji, jaką możesz podać.

— Ari B. Friedman

Będę różnicować analizy za pomocą modelu na podstawie solidnych błędów standardowych, odnosząc się do tych ostatnich jako „GEE”, co w rzeczywistości jest wymienną definicją. Oprócz fantastycznego wyjaśnienia Scortchi:

GEE mogą być „tendencyjne” w małych próbkach, tj. 10–50 pacjentów: (Lipsitz, Laird i Harrington, 1990; Emrich i Piedmonte, 1992; Sharples i Breslow, 1992; Lipsitz i in., 1994; Qu, Piedmonte i Williams, 1994; Gunsolley, Getchell i Chinchilli, 1995; Sherman i le Cessie, 1997.) Kiedy mówię, że GEE są stronnicze, mam na myśli to, że standardowe oszacowanie błędu może być zachowawcze lub antykonserwatywne z powodu małej lub zerowej liczby komórek , w zależności od tego, które dopasowane wartości wykazują takie zachowanie i jak są one zgodne z ogólnym trendem modelu regresji.

Zasadniczo, gdy model parametryczny jest poprawnie określony, nadal otrzymujesz prawidłowe standardowe szacunki błędów z CI opartych na modelu, ale cały sens używania GEE polega na uwzględnieniu tego bardzo dużego „jeśli”. GEE pozwalają statystykowi jedynie określić działający model prawdopodobieństwa danych, a parametry (zamiast interpretować je w ściśle parametrycznym układzie) są uważane za rodzaj „sita”, który może generować powtarzalne wartości bez względu na leżące u ich podstaw, nieznane generowanie danych mechanizm. To serce i dusza analizy półparametrycznej, której przykładem jest GEE.

GEE obsługują również niezmierzone źródła kowariancji danych, nawet ze specyfikacją niezależnej macierzy korelacji. Wynika to z zastosowania raczej empirycznej niż opartej na modelu macierzy kowariancji. Na przykład w modelowaniu Poissona możesz być zainteresowany współczynnikiem dzietności łososia pobranego z różnych strumieni. Komórki jajowe zebrane od samic ryb mogą mieć podstawowy rozkład Poissona, ale zmienność genetyczna, która obejmuje wspólną dziedziczność i dostępne zasoby w określonych strumieniach, może sprawić, że ryby w tych strumieniach będą bardziej podobne niż wśród innych strumieni. GEE poda prawidłowe szacunkowe standardowe błędy populacyjne, o ile częstotliwość próbkowania jest zgodna z ich proporcją populacyjną (lub w inny sposób stratyfikowana).

— AdamO
źródło

Wykonujesz test na zerową równowartość. Jest to prosta pomocnicza regresja OLS. Opis znajduje się na stronie 670 Camerona i Trivedi. W przypadku dużej naddyspersji standardowe błędy są bardzo deflowane, więc byłbym bardzo ostrożny wobec wszelkich wyników, które zależą od niestabilnego VCE, gdy występuje naddyspersja. W przypadku niskiej dyspersji sytuacja będzie odwrotna, co brzmi jak scenariusz, w którym się znajdujesz.

— Dimitriy V. Masterov
źródło