Jak interpretować parametry w GLM z rodziną = Gamma

21

Mam pytanie dotyczące interpretacji parametrów dla GLM ze zmienną zależną od rozkładu gamma. Oto, co R zwraca dla mojego GLM z log-link:

Call:
glm(formula = income ~ height + age + educat + married + sex + language + highschool, 
    family = Gamma(link = log), data = fakesoep)

Deviance Residuals: 
       Min        1Q    Median        3Q       Max  
  -1.47399  -0.31490  -0.05961   0.18374   1.94176  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.2202325  0.2182771  28.497  < 2e-16 ***
height       0.0082530  0.0011930   6.918 5.58e-12 ***
age          0.0001786  0.0009345   0.191    0.848    
educat       0.0119425  0.0009816  12.166  < 2e-16 ***
married     -0.0178813  0.0173453  -1.031    0.303    
sex         -0.3179608  0.0216168 -14.709  < 2e-16 ***
language     0.0050755  0.0279452   0.182    0.856    
highschool   0.3466434  0.0167621  20.680  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for Gamma family taken to be 0.1747557)

Null deviance: 757.46  on 2999  degrees of freedom
Residual deviance: 502.50  on 2992  degrees of freedom
AIC: 49184

Jak interpretować parametry? Jeśli obliczę exp(coef())mój model, otrzymam ~ 500 za przechwycenie. Teraz uważam, że nie oznacza to oczekiwanego dochodu, jeśli wszystkie inne zmienne są utrzymywane na stałym poziomie, prawda? Ponieważ średnia lub mean(age)wynosi ~ 2000. Ponadto nie mam pojęcia, jak interpretować kierunek i wartość współczynników współzmiennych.

r generalized-linear-model interpretation gamma-distribution

— gung - Przywróć Monikę
źródło

6

500 byłoby blisko oczekiwanego dochodu, gdyby wszystkie inne zmienne miały dokładnie zero (a nie tylko stały) - tak jak w regresji, naprawdę.

— Glen_b

@Glen_b dlaczego miałby być oczekiwany dochód, gdy wykładniczy współczynnik jest multiplikatywnym wpływem na dochód, gdy następuje zmiana zmiennej objaśniającej?

— tatami

Omawiany przypadek jest średnią warunkową, gdy wszystkie zmienne wyjaśniające mają wartość 0.

— Glen_b

25

Logmana powiązanej specyfikacji gamma GLM jest identyczna z regresją wykładniczą:

E [y | x, z] = \exp (α + β \cdot x + γ \cdot z) = \hat{y}

$E[y \vert x,z] = \exp \left( \alpha + \beta \cdot x +\gamma \cdot z \right)=\hat y$

$E[y \vert x=0,z=0]=\exp(\alpha)$

$y$ $x$ $x$

\frac{\partial E [y | x, z]}{\partial x} = \exp (α + β \cdot x + γ \cdot z) \cdot β = \hat{y} \cdot β

$\frac{\partial E[y \vert x,z]}{\partial x} = \exp \left( \alpha + \beta \cdot x +\gamma \cdot z\right)\cdot \beta=\hat y \cdot \beta$

$x$ $z$ $x$ $z$ $\hat y \cdot \beta$ $x$ $y$

$x$

E [y | z, x = 1] - E [y | z, x = 0] = \exp (α + β + γ \cdot z) - \exp (α + γ \cdot z) = \exp (α + γ \cdot z) \cdot (\exp (β) - 1)

$E[y \vert z,x=1]-E[y \vert z,x=0]=\exp \left( \alpha + \beta +\gamma \cdot z\right) - \exp \left( \alpha +\gamma \cdot z\right)= \exp \left( \alpha +\gamma \cdot z\right) \cdot\left( \exp(\beta)-1 \right)$

$x$

Trzecią metodą jest potęgowanie współczynników. Uwaga:

\begin{matrix} E [y | z, x + 1] & = \exp (α + β \cdot (x + 1) + γ \cdot z) \\ = \exp (α + β \cdot x + β + γ \cdot z) \\ = \exp (α + β \cdot x + γ \cdot z) \cdot \exp (β) \\ = E [y | z, x] \cdot \exp (β) \end{matrix}

$\begin{array} _E[y \vert z,x+1] &= \exp \left( \alpha + \beta \cdot (x+1) +\gamma \cdot z \right) \\ &=\exp \left( \alpha + \beta \cdot x+\beta +\gamma \cdot z \right)\\ &=\exp \left( \alpha + \beta \cdot x +\gamma \cdot z \right)\cdot \exp(\beta) \\ &= E[y \vert z,x]\cdot \exp(\beta) \end{array}$

$x$

— Dimitriy V. Masterov
źródło

1

Czy byłbyś w stanie zilustrować drugą interpretację?

— tatami

@tatami Naprawiłem błąd w przypadku binarnym. Czy to ma teraz więcej sensu?

— Dimitriy V. Masterov

2

Najpierw przyjrzę się resztkom, aby zobaczyć, jak dobrze pasuje model. Jeśli wszystko jest w porządku, spróbowałbym użyć innych funkcji łącza, chyba że miałbym powód, by sądzić, że tak naprawdę pochodzi z rozkładu gamma. Jeśli gamma nadal wyglądałaby przekonująco, doszłbym do wniosku, że statystycznie znaczącymi terminami są punkt przecięcia, wzrost, wykształcenie, płeć i szkoła średnia (te oznaczone trzema gwiazdkami). Między sobą nie można powiedzieć więcej, jeśli nie są znormalizowane (mają ten sam zakres).

Odpowiedź na komentarz: Teraz lepiej rozumiem twoje pytanie. Absolutnie możesz to zrobić! Wzrost jednostki o wysokość powoduje exp (0,0082530) -1 ~ = 0,0082530 (używając przybliżenia exp x = 1 + x dla małej x) względnej zmiany dochodu. Bardzo łatwa do interpretacji, nie?

— Emre
źródło

1

Więc nie mogę właściwie zinterpretować parametrów, np. Dochód wzrasta o xy, jeśli wysokość wzrośnie o jeden?

1

Wierzę teraz, że muszę to interpretować mnożnie: exp (przechwytywanie) * exp (wzrost) byłby dochodem ze wzrostem o 1 jednostkę. Dziękuję jednak! :)