Dlaczego GLM różni się od LM z transformowaną zmienną

16

Jak wyjaśniono w tym podręczniku kursu (strona 1) , model liniowy można zapisać w postaci:

y = β_{1} x_{1} + \dots + β_{p} x_{p} + ε_{i},

$y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i,$

gdzie jest zmienną odpowiedzi, a jest zmienną objaśniającą . $y$ $x_{i}$ $i^{th}$

Często w celu spełnienia założeń testowych można przekształcić zmienną odpowiedzi. Na przykład, stosujemy funkcję log na każdym . Przekształcanie zmiennej odpowiedzi NIE oznacza robienia GLM. $y_i$

GLM można zapisać w następującej formie ( ponownie z materiałów szkoleniowych (strona 3) )

g (u) = β_{1} x_{1} + \dots + β_{p} x_{p} + ε_{i},

$g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i,$

gdzie $u$ jest tylko kolejnym symbolem $y$ jak rozumiem ze strony 2 w materiałach szkoleniowych. $g()$ nazywa się funkcją link.

Naprawdę nie rozumiem różnicy między GLM i LM z transformowaną zmienną ze slajdów w trakcie. Czy możesz mi z tym pomóc?

— Remi.b
źródło

2

Rozsądne może być rozważenie faktu, że wszystkie transformacje wyniku binarnego są afiniczne, co ograniczyłoby cię do regresji zwykłej najmniejszych kwadratów. Nie jest to oczywiście regresja logistyczna (standardowy GLM dla odpowiedzi binarnych). (Dowód: niech wynikowe wartości będą zakodowane jako

i

i niech

będzie dowolną transformacją. Pisanie

i

stwierdzamy, że

zgadza się na

y_{0}

$y_0$

y_{1}

$y_1$

ϕ

$\phi$

z_{0} = ϕ (y_{0})

$z_0=\phi(y_0)$

z_{1} = ϕ (y_{1})

$z_1=\phi(y_1)$

ϕ

$\phi$

z

(który jest afiniczne przekształcenie

), gdzie

i

).

{y_{0}, y_{1}}

$\{y_0,y_1\}$

y \to λ y + μ

$y\to \lambda y + \mu$

y

$y$

λ = (z_{1} - z_{0}) / (y_{1} - y_{0})

$\lambda=(z_1-z_0)/(y_1-y_0)$

μ = z_{0} - λ y_{0}

$\mu=z_0-\lambda y_0$

— whuber

15

Transformacja odpowiedzi przed regresją liniową polega na:

E (g (Y)) \sim β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}

$E(g(Y)) \sim \beta_0 + \beta_1x_1 + \ldots + \beta_px_p$

gdzie jest daną funkcją i zakładamy, że ma dany rozkład (zwykle normalny). $g$ $g(Y)$

Uogólniony model liniowy robi to:

g (E (Y)) \sim β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}

$g(E(Y)) \sim \beta_0 + \beta_1x_1 + \ldots + \beta_px_p$

gdzie jest takie samo jak poprzednio, i zakładamy, że ma dany rozkład (zwykle nie jest normalny). $g$ $Y$

— Hong Ooi
źródło

jakie jest E w twoim równaniu?

— user1406647,

1

jest standardowym zapisem oczekiwaną wartością

.

E (X)

$E(X)$

X

$X$

— Marcus PS

Znalazłem to również pomocne: christoph-scherber.de/content/PDF%20Files/…

— Aditya

22

Nie jestem pewien, czy będzie to dla ciebie kompletna odpowiedź, ale może pomóc uwolnić koncepcyjny logjam.

Wygląda na to, że na twoim koncie występują dwa nieporozumienia:

Należy pamiętać, że zwykła regresja metodą najmniejszych kwadratów (OLS - „liniowy”) jest szczególnym przypadkiem uogólnionego modelu liniowego. Zatem, gdy powiesz „[t] ransformowanie zmiennej odpowiedzi NIE oznacza równoważenia robienia GLM”, jest to niepoprawne. Zarówno dopasowanie modelu liniowego, jak i przekształcenie zmiennej odpowiedzi, a następnie dopasowanie modelu liniowego stanowią „wykonanie GLM”.
W standardowym sformułowaniu GLM to, co nazywasz „ ” (co jest często reprezentowane przez , ale jest to tylko kwestia preferencji), jest średnim rozkładem odpowiedzi warunkowej w określonym miejscu w przestrzeni współzmiennej (tj. ). Zatem, kiedy mówisz „gdzie jest tylko kolejnym symbolem ”, jest to również niepoprawne. W formule OLS jest zmienną losową i / lub jest zrealizowaną wartością dla jednostki obserwacji / badania . Oznacza to, że (bardziej ogólnie) reprezentuje dane , a nie parametr . $u$ $\mu$ $X$ $u$ $y$ $Y$ $y_i$ $Y$ $i$ $y$

(Nie mam zamiaru uporać się z błędami, po prostu podejrzewam, że mogą powodować zamieszanie).
Istnieje również inny aspekt uogólnionego modelu liniowego, o którym nie wspominam. Oznacza to, że określamy rozkład odpowiedzi. W przypadku regresji OLS rozkład odpowiedzi jest gaussowski (normalny), a funkcja łącza jest funkcją tożsamości. W przypadku, powiedzmy, regresji logistycznej (która może być tym, co ludzie myślą najpierw, gdy myślą o GLM), rozkład odpowiedzi to Bernoulli (/ binomial), a funkcja link to logit. Korzystając z transformacji w celu zapewnienia spełnienia założeń dotyczących OLS, często staramy się, aby rozkład odpowiedzi warunkowej był akceptowalnie normalny. Jednak żadna taka transformacja nie sprawi, że rozkład Bernoulliego będzie akceptowalnie normalny.

— gung - Przywróć Monikę
źródło