Logma sprzężona z Gamma GLM a logarytmiczny Gaussian GLM a logarytm transformowany LM

Z moich wyników wynika, że GLM Gamma spełnia większość założeń, ale czy jest to opłacalne ulepszenie w stosunku do transformowanego logarytmicznie LM? Większość literatury, którą znalazłem, dotyczyła Poissona lub dwumianowego GLM. Uważam, że artykuł OCENA OGÓLNYCH ZAŁOŻEŃ MODELI LINIOWYCH Z WYKORZYSTANIEM LANDOMIZACJI jest bardzo przydatny, ale brakuje w nim faktycznych wykresów użytych do podjęcia decyzji. Mam nadzieję, że ktoś z doświadczeniem może wskazać mi właściwy kierunek.

Chcę modelować rozkład mojej zmiennej odpowiedzi T, której rozkład przedstawiono na wykresie poniżej. Jak widać, to jest dodatnia skośność:
Prawidłowy XHTML .

Mam dwa kategoryczne czynniki do rozważenia: METH i CASEPART.
Zauważ, że to badanie ma głównie charakter eksploracyjny, zasadniczo służy jako badanie pilotażowe przed opracowaniem modelu i wykonaniem DoE wokół niego.

Mam następujące modele w R z ich wykresami diagnostycznymi:

LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)

Prawidłowy XHTML

GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))

Prawidłowy XHTML

GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))

Prawidłowy XHTML

Osiągnąłem również następujące wartości P za pomocą testu Shapiro-Wilks na pozostałościach:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288

Obliczyłem wartości AIC i BIC, ale jeśli mam rację, nie mówią mi wiele z powodu różnych rodzin w GLM / LM.

Zwróciłem też uwagę na wartości ekstremalne, ale nie mogę ich zaklasyfikować jako wartości odstające, ponieważ nie ma wyraźnej „specjalnej przyczyny”.

r generalized-linear-model model-selection gamma-distribution

— TLJ
źródło

możliwy duplikat Wyboru między LM i GLM dla zmiennej odpowiedzi przekształconej logarytmicznie

— Marc w polu

Warto zauważyć, że wszystkie trzy modele są multiplikatywne w tym sensie, że wzrost regresora jest związany ze względną zmianą typowej odpowiedzi. Dla dwóch logarytmiczno-liniowych GLM „typowy” oznacza średnią arytmetyczną, podczas gdy dla transformowanej logarytmicznie LM mówimy o środkach geometrycznych. Tak więc sposób, w jaki chcesz interpretować efekty i prognozy, jest również czynnikiem decydującym o wyborze modelu, nie tylko mając doskonałe wykresy resztkowe (i tak są one sterowane danymi).

— Michael M

@MichaelMayer - Dziękuję za odpowiedź, bardzo pomocna. Czy mógłbyś nieco rozwinąć kwestię, w jaki sposób wybór wpływa na interpretację? Lub skieruj mnie w stronę referencji?

— TLJ

@ Marcinthebox- Przejrzałem to pytanie przed opublikowaniem. Nie bardzo zwięźle odpowiada na moje pytanie.

— TLJ,

Cóż, całkiem jasne, logarytmiczne dopasowanie do Gaussa jest nieodpowiednie; w pozostałościach występuje silna heteroskedastyczność. Więc weźmy to pod uwagę.

To, co zostało, jest lognormalne vs. gamma.

$T$

Każdy model wydaje się w tym przypadku prawie równie odpowiedni. Oba mają wariancję proporcjonalną do kwadratu średniej, więc wzór rozpiętości reszt względem dopasowania jest podobny.

Niska wartość odstająca będzie nieco lepiej pasować do wartości gamma niż wartość logarytmiczna (odwrotnie dla wartości wysokiej wartości odstającej). Przy danej średniej i wariancji lognormal jest bardziej pochylony i ma wyższy współczynnik zmienności.

$\exp(\mu)$ $\sigma^2$

Zobacz także tutaj i tutaj, aby uzyskać kilka powiązanych dyskusji.

— Glen_b - Przywróć Monikę
źródło

@Gleb_b ta odpowiedź jest bardzo przydatna do mojej analizy. Mam parę pytań. (1) Po pierwsze, czy jest to „Oba mają wariancję proporcjonalną do kwadratu średniej ...” w oparciu o wykres rezydualny vs dopasowany? (2) A czy to „Niska wartość odstająca będzie nieco lepiej pasować do gamma ... Przy danym środku i wariancji ...” w oparciu o wykres qq? (3) Z tego, co rozumiem, glm (np. Gamma, poissona i dwumian ujemny) nie przyjmuje założenia normalności reszt i jednorodności wariancji. Jeśli tak, to dlaczego wykreślanie reszt względem dopasowanego i normalnego wykresu qq byłoby istotne dla diagnostyki?

— tatami

Jest to wystarczająco obszerne, aby być całkowicie nowym pytaniem, a nawet kilkoma (na większość odpowiedzi już na naszej stronie!) - 1. część modelu. 2. Nie, są to ogólne fakty dotyczące dystrybucji. 3. Prawidłowo nie są one normalne, jednak reszty użyte w wykresie QQ są resztami dewiacyjnymi (wewnętrznie uczonymi), które - szczególnie w przypadku gamma - będą zwykle bardzo zbliżone do normalnie rozłożonych (napisałem odpowiedź wyjaśniającą, dlaczego w jakiś punkt) i powinien mieć zasadniczo stałą wariancję. Pewne odchylenie od normalności nie jest nieoczekiwane, ale znaczne odchylenie ... ctd

— Glen_b -Reinstate Monica 10.10.17

ctd ... od normalności (przy założeniu, że inne działki są w porządku) może wskazywać na problem z założeniem dystrybucyjnym.

— Glen_b