Pytanie o negatywną regresję dwumianową - czy to zły model?


31

Czytam bardzo interesujący artykuł Sellersa i Shmueli na temat modeli regresji dla danych zliczania. Na początku (s. 944) przytaczają McCullaugh i Nelder (1989), twierdząc, że regresja dwumianowa jest niepopularna i ma problematyczne powiązanie kanoniczne. Znalazłem wspomniany fragment i mówi (s. 374 M i N)

„Wydaje się, że w aplikacjach mało użyto ujemnego rozkładu dwumianowego; w szczególności użycie łącza kanonicznego jest problematyczne, ponieważ czyni predyktor liniowy funkcją parametru funkcji wariancji”.

Na poprzedniej stronie podają tę funkcję linku jako

η=log(α1+α)=log(μμ+k)

i funkcja wariancji

V.=μ+μ2)k.

Rozkład podano jako

P.r(Y=y;α,k)=(y+k-1)!y!(k-1)!αy(1+α)y=k

Odkryłem, że regresja NB jest dość szeroko stosowana (i zalecana w kilku książkach). Czy wszystkie te zastosowania i zalecenia są błędne?

Jakie są konsekwencje tego problematycznego łącza?


3
Prawdopodobnie ma to przynajmniej częściowo związek z cytatem z roku 1989. Jestem gotów się założyć, że większość obecnych zastosowań NB jest nowsza. Model NB jest bardzo przydatny zwykle, gdy mamy do czynienia z problemami nadmiernej dyspersji w typowym przypadku prawdopodobieństwa dwumianowego (tj. Regresji logistycznej).

5
Mam mętne szczegóły (i wcale nie jestem nowicjuszem, jeśli chodzi o NegBin), ale przypominam sobie Josepha Hilbe omawiającego to w swojej książce Negative Binomial Regression (2nd Edition). Komentuje na s. 9, że jest naturalnym wyrazem poglądu na mieszaninę Negissina poissona-gamma. Po wydanej w 1989 roku książce Nelder opracował makro kk dla GenStat, w którym preferuje bezpośredni związek między i z wariancją i że ta bezpośrednia parametryzacja okazała się bardzo popularna niedawno. V.αμ2)V.=μ+αμ2)
Przywróć Monikę - G. Simpson

3
Zebrałbym te komentarze z odrobiną soli. Re MN: Mieli bardzo ścisłą definicję tego, co jest GLM (chyba z dobrych powodów). Modele Negbina o nieznanym parametrze kształtu nie są zgodne z bardzo ścisłą definicją GLM autorstwa McCullagha, Neldera, Pregibona i tak dalej. Więc technicznie nie jest to GLM w prawie wszystkich przypadkach użycia. Zinterpretowany jako nieco inna klasa modeli i oszacowany na podstawie maksymalnego prawdopodobieństwa, już żadnych problemów. Re S&S potrzebował skrzynki, aby zmotywować COM Poisson, więc cytat M&N przydał się.
Momo

4
Nie rozumiem, dlaczego rzekome złe właściwości łącza kanonicznego sprawiają, że model negbina jest ogólnie niesolidny. Funkcję linku wybierasz na podstawie danych i problemu, który próbujesz rozwiązać, a nie przez odniesienie do teorii matematycznej. W rzeczywistości wątpię, aby ktokolwiek używał łącza kanonicznego. To podobna historia do gamma GLM; link kanoniczny jest odwrotny, ale założę się, że znacznie więcej osób korzysta z linku dziennika ze względu na łatwość interpretacji i naturalne zastosowanie w wielu sytuacjach.
Hong Ooi,

4
O ile mogę stwierdzić, prawie nigdy nie ma powodu, aby używać ujemnego modelu dwumianowego. Nawet jeśli twoje dane zostały naprawdę wygenerowane przez ujemny model dwumianowy, regresja Poissona daje spójne estymatory wpływu zmiennych niezależnych na średnią odpowiedź --- i to jest praktycznie zawsze to, co badacz chce oszacować. Zwykłe standardowe błędy są błędne, jeśli założenie Poissona jest błędne, ale ładowanie to rozwiązuje. Za każdym razem, gdy , możesz konsekwentnie oszacować za pomocą Poissona. mi{Y|X}=mixp(Xβ)β
Bill

Odpowiedzi:


10

Kwestionuję te twierdzenia z kilku punktów widzenia:

i) Chociaż łącze kanoniczne może być „problematyczne”, nie jest od razu oczywiste, że ktoś będzie zainteresowany tym łączem - podczas gdy na przykład łącze logarytmiczne w Poissonie jest często zarówno wygodne, jak i naturalne, a zatem ludzie są często zainteresowany tym. Mimo to w przypadku Poissona ludzie patrzą na inne funkcje łącza.

Nie musimy więc ograniczać naszych rozważań do powiązania kanonicznego.

„Problematyczny związek” sam w sobie nie jest szczególnie wymownym argumentem przeciwko negatywnej regresji dwumianowej.

Na przykład link do dziennika wydaje się być całkiem rozsądnym wyborem w niektórych negatywnych aplikacjach dwumianowych, na przykład w przypadkach, w których dane mogą być warunkowo Poissonem, ale występuje niejednorodność w szybkości Poissona - link do logu może być prawie tak samo interpretowalny jak w przypadku Poissona.

Dla porównania dość często używam GLM Gamma, ale nie przypominam sobie (poza przykładami z podręcznika), że kiedykolwiek użyłem jego kanonicznego linku - używam log-linku prawie zawsze, ponieważ jest to bardziej naturalny link do tego rodzaju problemów Mam tendencję do pracy.

ii) „Wygląda na to, że niewiele zostało zrobione ... we wnioskach” mogło być w gruncie rzeczy prawdą w 1989 roku, ale nie sądzę, aby miało to miejsce teraz. [Nawet jeśli tak się stało, to nie jest argument, że jest to zły model, tylko to, że nie był szeroko stosowany - co może się zdarzyć z wielu powodów.]

Negatywna regresja dwumianowa stała się bardziej rozpowszechniona, ponieważ jest bardziej dostępna, i widzę, że jest obecnie stosowana w aplikacjach znacznie szerzej. Na przykład w R korzystam z funkcji, MASSktóre go obsługują (a odpowiednia książka, Venables and Ripley's, Modern Applied Statistics with S , wykorzystuje ujemną regresję dwumianową w niektórych interesujących aplikacjach) - i użyłem pewnej funkcjonalności w kilku innych pakietach, nawet zanim użyłem go w R.

Użyłbym bardziej negatywnej regresji dwumianowej, nawet wcześniej, gdyby był mi łatwo dostępny; Spodziewam się, że to samo dotyczy wielu osób - więc argument, że był on mało używany, wydaje się być raczej szansą.

Chociaż można uniknąć ujemnej regresji dwumianowej (na przykład poprzez stosowanie nadmiernie rozproszonych modeli Poissona) lub wielu sytuacji, w których tak naprawdę nie ma to większego znaczenia, to, co robisz , jest wiele powodów, dla których nie jest to w pełni satysfakcjonujące.

Na przykład, gdy bardziej interesuję się przedziałami predykcyjnymi niż szacunkami współczynników, fakt, że współczynniki się nie zmieniają, może nie być wystarczającym powodem do uniknięcia ujemnego dwumianu.

Oczywiście istnieją jeszcze inne możliwości modelowania dyspersji (takie jak Conway-Maxwell-Poisson, który jest przedmiotem wspomnianego papieru); choć z pewnością są to opcje, czasami zdarzają się sytuacje, w których jestem całkiem szczęśliwy, że dwumian ujemny jest dość dobrym „dopasowaniem” jako modelu mojego problemu.

Czy wszystkie te zastosowania i zalecenia są błędne?

Naprawdę tak nie uważam! Gdyby tak było, do tej pory powinno to być dość jasne. Rzeczywiście, jeśli McCullagh i Nelder nadal czują to samo, nie mieli oni okazji ani forów, w których mogliby wyjaśnić pozostałe kwestie. Nelder zmarł (2010), ale McCullagh najwyraźniej wciąż jest w pobliżu .

Jeśli ten krótki fragment w McCullagh i Nelder to wszystko, co mają, powiedziałbym, że to dość słaby argument.

Jakie są konsekwencje tego problematycznego łącza?

Myślę, że problem dotyczy głównie funkcji wariancji, a funkcja link jest raczej powiązana niż niezwiązana (jak ma to miejsce w przypadku prawie wszystkich innych głównych rodzin GLM w powszechnym użyciu), co czyni interpretację na skali predyktora liniowego mniej proste (to nie znaczy, że to jedyny problem; myślę, że jest to główny problem dla praktyka). To nie jest wielka okazja.


p

Nic nie ma na celu zabrania niczego modelom Conwaya-Maxwella-Poissona (temat Sellers and Shmueli), które również stają się coraz szerzej stosowane - z pewnością nie chcę brać udziału w negatywnym dwumianowym kontra COM -Poisson strzelanka.

Po prostu nie uważam tego za jedno lub drugie, podobnie jak (teraz mówiąc szerzej) zajmuję stanowisko czysto bayesowskie, ani nie dość częste wobec problemów statystycznych. Wykorzystam wszystko, co mnie uderzy, jako najlepszy wybór w konkretnych okolicznościach, w których się znajduję, a każdy wybór ma zalety i wady.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.