Pracuję z dużym zestawem danych (poufnym, więc nie mogę udostępniać zbyt wiele),
Możliwe może być utworzenie małego zestawu danych, który ma niektóre ogólne cechy rzeczywistych danych bez nazw zmiennych ani żadnych rzeczywistych wartości.
i doszedł do wniosku, że konieczna będzie ujemna regresja dwumianowa. Nigdy wcześniej nie dokonywałem regresji glm i nie mogę znaleźć żadnych jasnych informacji na temat założeń. Czy są takie same dla MLR?
Najwyraźniej nie! Wiesz już, że zakładasz, że odpowiedź jest dwumianowa warunkowo ujemna, a nie warunkowo normalna. ( Niektóre założenia są wspólne. Na przykład niezależność.)
Pozwól, że najpierw zacznę mówić o GLM.
GLM obejmują regresję wielokrotną, ale generalizują na kilka sposobów:
1) rozkład warunkowy odpowiedzi (zmienna zależna) pochodzi z rodziny wykładniczej , która obejmuje rozkład Poissona, dwumianowy, gamma, normalny i wiele innych rozkładów.
log( p1 - p)
YX1X2)YX
E ( Yja) = μja
logμja= ηjaηlogsol
ηja= β0+ β1x1 i+ β2)x2 i
3) wariancja odpowiedzi nie jest stała, ale działa poprzez funkcję wariancji (funkcja średniej, być może razy parametru skalowania). Na przykład wariancja Poissona jest równa średniej, podczas gdy dla gamma jest proporcjonalna do kwadratu średniej. (Quasi-rozkłady pozwalają na pewien stopień oddzielenia funkcji wariancji od założonego rozkładu)
-
Jakie więc założenia są wspólne z tym, co pamiętasz z MLR?
Niezależność wciąż tam jest.
Homoskedastyczność nie jest już zakładana; wariancja jest wyraźnie funkcją średniej, a zatem ogólnie zmienia się w zależności od predyktorów (więc podczas gdy model jest zasadniczo heteroskedastyczny, heteroskedastyczność przyjmuje określoną postać).
Xβ
Rozkład odpowiedzi jest znacznie bardziej ogólny
t
Porównania między modelami zagnieżdżonymi (za pomocą „tabel anova”, takich jak konfiguracje) są nieco inne, ale podobne (obejmujące asymptotyczne testy chi-kwadrat). Jeśli nie masz nic przeciwko AIC i BIC, możesz je obliczyć.
Podobne rodzaje wyświetlaczy diagnostycznych są na ogół stosowane, ale ich interpretacja może być trudniejsza.
Wiele z wielu intuicji regresji liniowej zostanie przeniesionych, jeśli będziesz pamiętać o różnicach.
Yx
E ( Y) = exp( η) = exp( Xβ) = exp( β0+ β1x )
Var ( Y) = σ2)
Yx
Czy mogę przekształcić zmienne w ten sam sposób (już odkryłem, że przekształcanie zmiennej zależnej jest złym wywołaniem, ponieważ musi być liczbą naturalną)?
(Zwykle) nie chcesz przekształcać odpowiedzi (DV). Czasami możesz chcieć przekształcić predyktory (IV), aby uzyskać liniowość predyktora liniowego.
Ustaliłem już, że ujemny rozkład dwumianowy pomógłby w nadmiernej dyspersji moich danych (wariancja wynosi około 2000, średnia wynosi 48).
Tak, może poradzić sobie z nadmierną dyspersją. Ale uważaj, aby nie pomylić warunkowej dyspersji z bezwarunkową dyspersją.
Innym powszechnym podejściem - choć trochę bardziej niezręcznym i mniej satysfakcjonującym dla mnie - jest regresja quasi-Poissona (regresja rozproszona Poissona).
Z ujemnym dwumianowym jest w rodzinie wykładniczej, jeśli podasz konkretny jeden z jego parametrów (sposób, w jaki zwykle jest on ponownie parametryzowany przynajmniej dla GLMS). Niektóre pakiety będą do niego pasować, jeśli podasz parametr, inne zawiążą oszacowanie ML tego parametru (powiedzmy poprzez prawdopodobieństwo profilu) wokół procedury GLM, automatyzując proces. Niektóre ograniczą cię do mniejszego zestawu dystrybucji; nie mówisz, jakiego oprogramowania możesz użyć, więc trudno powiedzieć tam więcej.
Myślę, że zwykle log-link jest zwykle używany z ujemną regresją dwumianową.
Istnieje wiele dokumentów na poziomie wprowadzającym (łatwo dostępnych za pośrednictwem Google), które prowadzą przez podstawową analizę Poissona GLM, a następnie ujemną dwumianową analizę danych GLM, ale możesz rzucić okiem na książkę o GLM i może najpierw zrobić małą regresję Poissona żeby się do tego przyzwyczaić.