Przykład @ Petera składa się z dwóch elementów, które mogą być przydatne do rozplątania:
(1) Błędna specyfikacja modelu. Modele
yi=β0+β1xi+εi(1)
I
wi=γ0+γ1zi+ζi(2)
wi=yixi−−√zi=xi−−√
wi=β0z2i+β1+εiz2i−−−−−−−−−−−√(1)
yi=(γ0x−−√i+γ1x−−√i+ζix−−√i)2(2)
If Y is assumed to be a Gaussian random variable independent of X, then that's a special case of Model 1 in which β1=0, & you shouldn't be using Model 2. But equally if W is assumed to be a Gaussian random variable independent of Z, you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.
(2) Transformation of the response. If you knew Y & X to be independent Gaussian random variables, why should the relation between W & Z still surprise you, or would you call it spurious? The conditional expectation of W można aproksymować metodą delta:
miYx--√= EY--√z≈ β0--√+ VarY8 β3 / 20z
Jest to rzeczywiście funkcja z.
Idąc za przykładem ...
set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
Ani Model 1, ani Model 2 nie nadają się do przewidywania y od x, ale oba są w porządku do przewidywania w od z: błędna specyfikacja nie wyrządziła tutaj wiele szkód (co nie znaczy, że nigdy nie będzie - kiedy to zrobi, powinno to wynikać z diagnostyki modelu). Modele-2-ery szybciej wpadną w kłopoty, gdy dokonają ekstrapolacji dalej od danych - tak jak w przypadku kursu, jeśli model jest błędny. Niektórzy czerpią przyjemność z kontemplacji małych gwiazd, które umieszczają obok swoich wartości p, podczas gdy niektórzy Model-1-ery gorzko je urażają - suma ludzkiego szczęścia pozostaje taka sama. I oczywiście Model-2-ers, patrząc na fabułęw przeciwko z, może pokusić się, aby interweniować w celu zwiększenia z zmniejszy się w—Możemy tylko mieć nadzieję i modlić się, aby nie ulegli pokusie, przed którą wszyscy nieustannie nas ostrzegano; pomieszanie korelacji z przyczyną.
Aldrich (2005), „Korelacje autentyczne i fałszywe w Pearsonie i Yule”, Statistics Science , 10 , 4 przedstawia interesującą historyczną perspektywę tych zagadnień.