Jak zdecydować, której rodziny glm użyć?

Mam dane dotyczące gęstości ryb, które próbuję porównać między kilkoma różnymi technikami zbierania, dane mają wiele zer, a histogram wygląda na vaugley odpowiedni dla rozkładu Poissona, z tym wyjątkiem, że jako gęstości nie są to dane całkowite. Jestem stosunkowo nowy w GLM i przez ostatnie kilka dni szukałem w Internecie, jak powiedzieć, z której dystrybucji skorzystać, ale całkowicie nie udało mi się znaleźć żadnych zasobów, które mogłyby pomóc w podjęciu tej decyzji. Przykładowy histogram danych wygląda następująco:

Nie mam pojęcia, jak podjąć decyzję o wyborze odpowiedniej rodziny do GLM. Jeśli ktoś ma jakąś radę lub może dać mi zasób, powinienem to sprawdzić, byłoby fantastycznie.

— C. Denney
źródło

Czym dokładnie jest „zagęszczenie ryb”? Czy jest to np. Liczba ryb na jednostkę objętości jeziora?

— gung - Przywróć Monikę

Jest to liczba ryb na jednostkę powierzchni (w tym przypadku metrów kwadratowych). Użyliśmy wizualnych narzędzi ankietowych, więc oblicza się je na podstawie liczby zaobserwowanych ryb podzielonej przez obszar badany przez narzędzie. Musieliśmy użyć gęstości do standaryzacji między narzędziami, ponieważ badają one bardzo różne obszary, w przeciwnym razie mógłbym po prostu użyć danych zliczania i trzymać się rozkładu Poissona.

— C. Denney

Moja rada - wróć do danych zliczania i użyj „obszaru” jako przesunięcia w modelu z linkiem do dziennika --- ale nie wiem, czy Poisson będzie pasował bardzo dobrze (trochę trudno zgadnąć, ponieważ twój histogram pokazuje jedynie rozkład krańcowy, a nie warunkowe, które modelowałby GLM ... a w każdym razie ma o wiele za mało pojemników, aby można było z niego korzystać. Jeśli Poisson nie jest wystarczająco gruby / spike-at-0-ish, może działać ujemny dwumian lub być może potrzebujesz modeli z zerowym napompowaniem lub przeszkodą

— Glen_b

Robię modelowanie Poissona przez cały dzień, a komentarz Glen_b jest kanoniczną odpowiedzią.

— Paul,

Jedno uzupełnienie - modelowanie Poissona jest teoretycznie dobrze uzasadnione, gdy jednostki obserwacji (w tym przypadku przypuszczam, że liczysz pojedyncze ryby?) Są niezależnie rozmieszczone na polu obserwacji, jak przypadkowo porozrzucane ziarna piasku. Przy takim założeniu mogą występować pewne różnice w gęstości, ale pozycja jednej ryby nie implikuje niczego na temat pozycji innych ryb. Ostrzegamy jednak, że założenie to może zostać w praktyce naruszone, ponieważ ryby gromadzą się, na przykład w szkołach, a ich pozycje nie są już niezależne.

— Paul,

Odpowiedzi:

Rodziny GLM obejmują funkcję link, a także relację średniej wariancji. W przypadku GLM Poissona funkcja link jest dziennikiem, a relacja średniej wariancji to tożsamość. Pomimo ostrzeżeń, które daje większość programów statystycznych, całkowicie uzasadnione jest modelowanie relacji w ciągłych danych, w których związek między dwiema zmiennymi jest liniowy w skali logarytmicznej, a wariancja rośnie zgodnie ze średnią.

Zasadniczo jest to uzasadnienie wyboru funkcji łącza i wariancji w GLM. Oczywiście za tym procesem kryje się kilka założeń. Możesz stworzyć bardziej niezawodny model, używając quasilikelihood (patrz ?quasipoisson) lub solidnych standardowych błędów (patrz pakiet sandwichlubgee ).

Prawidłowo zauważyłeś, że wiele gęstości ma 0 w danych. W modelach prawdopodobieństwa Poissona właściwe jest od czasu do czasu próbkowanie zer w danych, więc niekoniecznie jest tak, że te obserwacje prowadzą do błędu w twoich szacunkach wskaźników.

Aby sprawdzić założenia GLM, zwykle pomocne jest przyjrzenie się pozostałościom Pearsona. Uwzględniają one średnią zależność wariancji i pokazują statystycznemu, czy określone obserwacje, takie jak te zerowe, istotnie wpływają na oszacowanie i wyniki.

— AdamO
źródło

Uogólniony model liniowy jest zdefiniowany w kategoriach predyktora liniowego

η = X β

$\eta = \boldsymbol{X} \beta$

który jest przekazywany przez funkcję link : $g$

g (E (Y | X)) = η

$g(E(Y\,|\,\boldsymbol{X})) = \eta$

Modeluje zależność między zmienną zależną i zmiennymi niezależnymi . Dokładniej, to modele warunkowe oczekiwanie od danego , $Y$ $\boldsymbol{X} = X_1,X_2,\dots,X_k$ $Y$ $\boldsymbol{X}$

E (Y | X) = μ = g^{- 1} (η)

$E(Y\,|\,\boldsymbol{X} ) = \mu = g^{-1}(\eta)$

więc model można zdefiniować w kategoriach probabilistycznych jako

Y | X \sim f (μ, σ^{2})

$Y\,|\,\boldsymbol{X} \sim f(\mu, \sigma^2)$

$f$ $f$ $Y$ $Y$ $\boldsymbol{X}$ $Y$ $\boldsymbol{X}$

Jeśli twój wynik jest ciągły i nieograniczony, wówczas najbardziej „domyślnym” wyborem jest rozkład Gaussa (inaczej rozkład normalny ), tj. Standardowa regresja liniowa (chyba że użyjesz innej funkcji łącza niż domyślny link tożsamości).
Jeśli masz do czynienia z ciągłym wynikiem nieujemnym , możesz rozważyć rozkład gamma lub odwrotny rozkład gaussa .
Jeśli twój wynik jest dyskretny , a dokładniej, masz do czynienia z licznikami (ile razy coś się dzieje w danym przedziale czasowym), to najczęstszym wyborem rozkładu na początek jest rozkład Poissona . Problem z rozkładem Poissona polega na tym, że jest on raczej nieelastyczny, ponieważ zakłada, że średnia jest równa wariancji, jeśli to założenie nie zostanie spełnione, można rozważyć zastosowanie rodziny quasi-Poissona lub ujemnego rozkładu dwumianowego (patrz także Definicja dyspersji parametr dla rodziny quasipoisson ).
Jeśli twój wynik jest binarny (zera i jedynki), proporcje „sukcesów” i „niepowodzeń” (wartości od 0 do 1) lub ich liczby , możesz użyć rozkładu dwumianowego , tj . Modelu regresji logistycznej . Jeśli istnieje więcej niż dwie kategorie, należy użyć rozkładu wielomianu w regresji wielomianowej .

Z drugiej strony, w praktyce, jeśli jesteś zainteresowany budowaniem modelu predykcyjnego, możesz być zainteresowany przetestowaniem kilku różnych rozkładów, a na koniec dowiedzieć się, że jeden z nich daje bardziej dokładne wyniki niż inne, nawet jeśli nie jest to najbardziej „odpowiednie” pod względem teoretycznym (np. teoretycznie powinieneś użyć Poissona, ale w praktyce standardowa regresja liniowa działa najlepiej dla twoich danych).

— Tim
źródło

To dość szerokie pytanie, pytasz o sposób modelowania, a poświęcone temu są całe książki. Na przykład, mając do czynienia z danymi zliczeń, weź pod uwagę następujące kwestie:

Oprócz wyboru dystrybucji musisz także wybrać funkcję łącza. Z danymi zliczania można wypróbować rozkład dwumianowy poissona lub ujemnego i funkcję łączenia logów. Podano powód połączenia logu: Dobro dopasowania i który model wybrać regresję liniową lub Poissona Jeśli twoje łatki mają bardzo różne obszary, być może powinieneś uwzględnić logarytm obszaru jako przesunięcie, aby model liczył na jednostkę powierzchni, a nie absolutny liczy się. Aby uzyskać wyjaśnienie przesunięcia w regresji danych zliczania, zobacz Kiedy używać przesunięcia w regresji Poissona?

EDIT

Ta odpowiedź została pierwotnie wysłana na inne pytanie, które zostało połączone z tym. Chociaż odpowiedź jest ogólna, skomentowała specyfikę zbioru danych i problem, których już nie ma w pytaniu. Oryginalne pytanie można znaleźć pod następującym linkiem: Rodzina w GLM - jak wybrać właściwe?

— kjetil b halvorsen
źródło

Nie możemy rozdzielić pytań, @kjetil, tylko twórcy mogą to zrobić (i tak naprawdę nie lubią). Nadal mogę jednak uzyskać dostęp do oryginalnego Q. Jedną z możliwości jest to, że mógłbym skopiować treść do nowego Q (który byłby przeze mnie autorem), możesz skopiować to A do nowego wątku, a następnie mógłbym zamknąć ten wątek jako duplikat tego. Trudno powiedzieć, czy to szalony pomysł, czy warto, ale to właśnie mogę zrobić. Czy masz preferencje?

— gung - Przywróć Monikę

@gung: Możesz to zrobić lub mogę skopiować informacje z tego pytania do odpowiedzi tutaj. Może to jest najlepsze? (Mogę edytować, jak się wydaje z historii edycji)

— kjetil b halvorsen

@kjetilbhalvorsen przede wszystkim przepraszam za bałagan, ponieważ moim pomysłem było połączenie wątków, ponieważ wydawały się być prawie takie same i oba zawierały dobre odpowiedzi. Moje pierwsze wrażenie było takie, że połączenie wątków nie zaszkodzi. Może mógłbyś po prostu dodać „Na przykład, gdy masz do czynienia z danymi zliczania ...” do drugiego akapitu? Twoja odpowiedź ładnie odpowiada ogólnemu „Jak wybrać rodzinę?” pytanie, więc może warto zostawić to w ogólnym wątku?

— Tim

@ Tim będę edytować, jak mówisz!

— kjetil b halvorsen

Spróbujmy edycji. Jeśli chcesz, żebym powtórzył Q, wyślij mi ping ponownie. Odrzucę teraz flagę.

— gung - Przywróć Monikę