Sprawdzanie resztek normalności w uogólnionych modelach liniowych

W pracy wykorzystano uogólnione modele liniowe (zarówno dwumianowe, jak i ujemne dwumianowe rozkłady błędów) do analizy danych. Ale w sekcji metod analizy statystycznej znajduje się następujące stwierdzenie:

... i po drugie poprzez modelowanie danych obecności za pomocą modeli regresji logistycznej oraz danych czasu poszukiwania za pomocą uogólnionego modelu liniowego (GLM). Do modelowania danych czasu poszukiwania zastosowano ujemny rozkład dwumianowy z funkcją logarytmiczną (Welsh i in. 1996), a adekwatność modelu zweryfikowano na podstawie badań pozostałości (McCullagh i Nelder 1989). Testy Shapiro – Wilka lub Kołmogorowa – Smirnowa wykorzystano do przetestowania normalności w zależności od wielkości próby; dane poddano transformacji logarytmicznej przed analizami, aby zachować zgodność z normalnością.

Jeśli przyjmą dwumianowy i ujemny dwumianowy rozkład błędów, to na pewno nie powinni sprawdzać normalności reszt?

generalized-linear-model assumptions

— luciano
źródło

Zauważ, że błędy nie są rozkładane dwumianowo - każda odpowiedź jest rozkładana dwumianowo z parametrem prawdopodobieństwa podanym przez odpowiednie wartości predykcyjne, zgodnie z odpowiedziami na jedno z pozostałych pytań .

— Scortchi - Przywróć Monikę

Nie ma nic w dwumianowej lub ujemnej regresji dwumianowej, niż musi być normalne. Jeśli jest to reakcja, którą przekształcają, może to być bardzo przeciwne do zamierzonego; spieprzy GLM.

— Glen_b

Z twojego cytatu nie wynika jasno, co w rzeczywistości testują pod kątem normalności (jesteś pewien, że to resztki?) Lub jakiej analizy analizują dane (czy jesteś pewien, że to GLM?).

— Scortchi - Przywróć Monikę

Rozszerzyłem trochę cytat. Czy ktoś mógłby potwierdzić, czy to, co zrobili autorzy artykułu, było złe, czy słuszne?

— luciano

Obawiam się, że nadal nie jest to strasznie jasne - skontaktuj się z autorami, aby uzyskać szczegółowe informacje na temat tego, jak przeprowadzili analizę, jeśli nie zostanie to wyjaśnione w innym miejscu w dokumencie lub w odnośnikach.

— Scortchi - Przywróć Monikę

Odpowiedzi:

$i$ $y_i$

r_{i}^{D} = - \sqrt{2 | \log (1 - {\hat{π}}_{i}) |}

$r^{\mathrm{D}}_i=-\sqrt{2\left|\log{(1-\hat{\pi}_i)}\right|}$

jeśli i $y_i=0$

r_{i}^{D} = \sqrt{2 | \log ({\hat{π}}_{i}) |}

$r^{\mathrm{D}}_i=\sqrt{2\left|\log{(\hat{\pi}_i)}\right|}$

jeśli , gdzie jest dopasowanym prawdopodobieństwem Bernoulliego. Ponieważ każda z nich może przyjąć tylko jedną z dwóch wartości, jasne jest, że ich rozkład nie może być normalny, nawet dla poprawnie określonego modelu: $y_i=1$ $\hat{\pi_i}$

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

Wykres QQ n = 1

$n_i$ $i$

r_{i}^{D} = sgn (y_{i} - n_{i} {\hat{π}}_{i}) \sqrt{2 [y_{i} \log \frac{y_{i}}{n {\hat{π}}_{i}} + (n_{i} - y_{i}) \log \frac{n_{i} - y_{i}}{n_{i} (1 - {\hat{π}}_{i})}]}

$r^{\mathrm{D}}_i=\operatorname{sgn}({y_i-n_i\hat{\pi}_i})\sqrt{2\left[y_i\log{\frac{y_i}{n\hat{\pi}_i}} + (n_i-y_i)\log{\frac{n_i-y_i}{n_i(1-\hat{\pi}_i)}}\right]}$

$y_i$ $n_i$ $n_i$

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

Wykres QQ n = 30

Podobnie jest w przypadku Poissona lub ujemnych dwumianowych GLM: dla niskich przewidywanych zliczeń rozkład reszt jest dyskretny i wypaczony, ale ma tendencję do normalności dla większych zliczeń w poprawnie określonym modelu.

Nie jest zwykle, przynajmniej nie w mojej szyi w lesie, przeprowadzanie formalnego testu resztkowej normalności; jeśli testowanie normalności jest zasadniczo bezużyteczne, gdy model zakłada dokładną normalność, a fortiori jest bezużyteczne, gdy nie jest. Niemniej jednak w przypadku nienasyconych modeli graficzna diagnostyka resztkowa jest przydatna do oceny obecności i charakteru braku dopasowania, biorąc normalność ze szczyptą lub garścią soli w zależności od liczby powtórzeń na wzór predykcyjny.

— Scortchi - Przywróć Monikę
źródło

To, co zrobili, jest poprawne! Dam ci odniesienie do podwójnej kontroli. Patrz sekcja 13.4.4 we wstępie do analizy regresji liniowej, wydanie 5autorzy: Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining. W szczególności spójrz na przykłady na stronie 460, gdzie pasują one do dwumianowego glm i dwukrotnie sprawdź założenie normalności „Pozostałości dewiacji”. Jak wspomniano na stronie 458, dzieje się tak, ponieważ „reszty dewiacyjne zachowują się podobnie jak zwykłe reszty w standardowym modelu regresji liniowej z normalną teorią”. Ma to więc sens, jeśli wykreślasz je na normalnej skali prawdopodobieństwa, a także w stosunku do dopasowanych wartości. Ponownie patrz strona 456 powyższego odnośnika. W przykładach, które podali na stronach 460 i 461, nie tylko dla przypadku dwumianowego, ale także dla Poissona glm i Gamma z (link = log), sprawdzili normalność reszt dewiacyjnych.
Dla przypadku dwumianowego odchylenie resztkowe jest zdefiniowane jako:

r_{i}^{D} = - \sqrt{2 | \ln (1 - \hat{π_{i}}) |}

$r^{D}_i=-\sqrt{2|\ln{(1-\hat{\pi_i})}|}$

y_{i} = 0

$y_i=0$

r_{i}^{D} = \sqrt{2 | \ln (\hat{π_{i}}) |}

$r^{D}_i=\sqrt{2|\ln{(\hat{\pi_i})}|}$

y_{i} = 1

$y_i=1$

> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
>

Sprawdź tutaj również przypadek Poissona.

— Stat
źródło

Twój przykład jest dziwnym wyborem. Czy stworzyłeś wykres PP lub QQ tych odchyleń dewiacyjnych; jeśli tak, to co doszedłeś do wniosku?

— Scortchi - Przywróć Monikę

Chodzi o to, że w tym przypadku nie byłoby sensu sprawdzanie normalności reszt - najwyraźniej nie są one normalnie rozmieszczone, ani nie powinny. Dopiero gdy liczba obserwacji dla każdego wzorca predykcyjnego rośnie, rozkład reszt (jedna resztka jest obliczana na wzór predyktora) zmierza do normy. Podobnie w przypadku modelu dwumianowego Poissona lub ujemnego - liczby muszą być duże, aby normalne przybliżenie było dobre.

— Scortchi - Przywróć Monikę

Pytanie brzmi, czy reszty uogólnionych modeli liniowych powinny być normalnie rozłożone. Twoja odpowiedź wydaje się być niekwalifikowanym „tak” (chociaż twoje źródła bez wątpienia podają niezbędne kwalifikacje, nie każdy czytelnik je sprawdzi). Następnie podajesz przykład, w którym nie ma żadnego powodu, aby oczekiwać, że reszty zostaną normalnie rozłożone, nawet jeśli model został poprawnie określony: nieostrożny czytelnik przyjmie, że powinny one być i że, ponieważ nie są oczywiste, jest to dlatego przykład wykrycia błędnej specyfikacji modelu poprzez badanie resztek (chociaż ...

— Scortchi - Przywróć Monikę

... nie powiedziałem, że tak jest). Myślę więc, że odpowiedź wymaga wielu wyjaśnień, aby była użyteczna.

— Scortchi - Przywróć Monikę

Komentarze IMO @ Scortchi są tutaj rozsądne. Patrząc na to, co widzę z książki Montgomery na podglądzie książek Google , robią fabułę QQ, ale nie przeprowadzają rzeczywistego testu normalności, jak wspomniano w oryginalnym plakacie. Oczywiście wykonanie wykresu QQ jest uzasadnione jako test diagnostyczny, ale w praktycznie wszystkich realistycznych okolicznościach nawet rezydowanie odchodzi. nie będzie normalne.

— Andy W