Jaka jest podstawowa różnica między tymi dwoma modelami regresji?

Załóżmy, że mam odpowiedzi dwuwymiarowe ze znaczną korelacją. Próbuję porównać dwa sposoby modelowania tych wyników. Jednym ze sposobów jest modelowanie różnicy między dwoma wynikami: Innym sposobem jest użycie lub ich:

(y_{i 2} - y_{i 1} = β_{0} + X^{'} β)

$(y_{i2}-y_{i1}=\beta_0+X'\beta)$ glsgee

(y_{i j} = β_{0} + time + X^{'} β)

$(y_{ij}=\beta_0+\text{time}+X'\beta)$

Oto przykład foo:

#create foo data frame

require(mvtnorm)
require(reshape)
set.seed(123456)
sigma <- matrix(c(4,2,2,3), ncol=2)
y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma)
cor(y)
x1<-rnorm(500)
x2<-rbinom(500,1,0.4)
df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2)
df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long")
df.long<-df.long[order(df.long$id),]
    df.wide$diff_y<-df.wide$y2-df.wide$y1


#regressions
fit1<-lm(diff_y~x1+x2,data=df.wide)
fit2<-lm(y~time+x1+x2,data=df.long)
fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time))

Jaka jest podstawowa różnica między fit1i fit2? A pomiędzy fit2i fit3, biorąc pod uwagę, że są tak blisko wartości i szacunków? $p$

r regression model-selection

— David Z
źródło

Różnica między fit1 a fit3 jest czasami nazywana paradoksem Pana. Zobacz tutaj dyskusję (dlaczego szacunki nie zmieniają się między modelami) oraz odniesienie do artykułu Paula Allisona, stats.stackexchange.com/a/15759/1036 . Innym odniesieniem jest

Holland, Paul & Donald Rubin. 1983. On Lord’s Paradox. In Principles of modern psychological measurement: A festchrift for Frederic M. Lord edited by Wainer, Howard & Samuel Messick pgs:3-25. Lawrence Erlbaum Associates. Hillsdale, NJ.

— Andy W

Po pierwsze przedstawię czwarty model dyskusji w mojej odpowiedzi:

fit1,5 <- lm (r_2 ~ x_1 + x_2 + y_1)

Część 0
Różnicę między fit1 a fit1,5 najlepiej podsumować jako różnicę między ograniczoną różnicą a optymalną różnicą.

Użyję prostszego przykładu, aby to wyjaśnić niż ten podany powyżej. Zacznijmy od fit1.5. Prostsza wersja modelu to Oczywiście, gdy otrzymamy oszacowanie OLS, znajdzie on „optymalny” wybór dla . I choć wydaje się to dziwne, pisanie jest takie, możemy przepisać formułę jako Możemy to jako „optymalną” różnicę między dwiema zmiennymi .

y_{2} = b_{0} + b_{1} \cdot x + b_{2} \cdot y_{1}

$y_2 = b_0 + b_1·x + b_2·y_1$

b_{2}

$b_2$

y_{2} - b_{2} \cdot y_{1} = b_{0} + b_{1} \cdot x

$y_2 - b_2·y_1 = b_0 + b_1·x$

y

$y$

Teraz, jeśli zdecydujemy się na ograniczenie , wówczas formuła / model stanie się co jest tylko (ograniczoną) różnicą. $b_2=1$

y_{2} - y_{1} = b_{0} + b_{1} \cdot x

$y_2 - y_1 = b_0 + b_1·x$

Zauważ, że w powyższej demonstracji, jeśli pozwolisz być zmienną dychotomiczną, a będzie testem wstępnym, a parowaniem wyniku po teście, to model ograniczonej różnicy byłby tylko niezależnymi próbkami - test na zwiększenie wyników , podczas gdy optymalnym modelem różnic byłby test ANCOVA z wynikami przedtestowymi stosowanymi jako zmienne towarzyszące. $x$ $y_1$ $y_2$ $t$

Część 1
Model fit2 najlepiej przemyśleć w podobny sposób, jak w przypadku podejścia różnicowego zastosowanego powyżej. Chociaż jest to nadmierne uproszczenie (ponieważ celowo terminy błędów), model można przedstawić jako gdzie dla wartości dla wartości . Oto uproszczenie ... Napisano w inny sposób, . Podczas gdy model fit1.5 miał wartość jako wartość optymalną dla analizy OLS, tutaj

y = b_{0} + b_{1} \cdot x + b_{2} \cdot t

$y = b_0 + b_1 · x + b_2 · t$

t = 0

$t=0$

y_{1}

$y_1$

t = 1

$t=1$

y_{2}

$y_2$

\begin{aligned} y_{1} & = b_{0} + b_{1} \cdot x \\ y_{2} & = b_{0} + b_{1} \cdot x + b_{2} \end{aligned}

$\begin{align}y_1 & = b_0 + b_1 · x \\ y_2 & = b_0 + b_1 · x + b_2\end{align}$

y_{2} - y_{1} = b_{2}

$y_2 - y_1 = b_2$

b_{2}

$b_2$

b_{2}

$b_2$ jest zasadniczo tylko średnią różnicą między wartościami (po skontrolowaniu innych zmiennych towarzyszących).

y

$y$

Część 2
Więc jaka jest różnica między modelami fit2 i fit3 ... właściwie bardzo niewiele. Model fit3 uwzględnia korelację pod względem błędów, ale to tylko zmienia proces estymacji, a zatem różnice między dwoma wyjściami modelu będą minimalne (poza faktem, że fit3 szacuje czynnik autoregresyjny).

Część 2.5
I do tej dyskusji dołączę jeszcze jeden model

fit4 <- lmer (y ~ czas + x1 + x2 + (1 | id), dane = df. długi)

Ten model z mieszanymi efektami robi nieco inną wersję podejścia autoregresyjnego. Gdybyśmy mieli uwzględnić współczynnik czasu w efektach losowych, byłoby to porównywalne do obliczenia różnicy między dla każdego pacjenta. (Ale to nie zadziała ... i model nie będzie działać.) $y$

— Gregg H.
źródło