Przypadek „tendencyjności tłumienia” można lepiej przedstawić, jeśli przeanalizujemy model „probit” - ale wynik przeniesie się również do regresji logistycznej.
Poniżej modeli warunkowego prawdopodobieństwa (modele logistyczne (logit), „probit” i „prawdopodobieństwo liniowe”) możemy postulować ukryty (nieobserwowalny) model regresji liniowej:
y∗=Xβ+u
gdzie jest ciągłą nieobserwowalną zmienną (a X jest macierzą regresora). Przyjmuje się, że składnik błędu jest niezależny od regresorów i podąża za rozkładem, którego gęstość jest symetryczna wokół zera , aw naszym przypadku standardowy rozkład normalny F U ( u ) = Φ ( u ) .y∗XFU(u)=Φ(u)
Zakładamy, że to, co obserwujemy, tj. Zmienna binarna , jest funkcją wskaźnika nieobserwowalnego y ∗ :yy∗
y=1ify∗>0,y=0ify∗≤0
Następnie pytamy „jakie jest prawdopodobieństwo, że przyjmie wartość 1, biorąc pod uwagę regresory?” (tzn. patrzymy na prawdopodobieństwo warunkowe). To jesty1
P(y=1∣X)=P(y∗>0∣X)=P(Xβ+u>0∣X)=P(u>−Xβ∣X)=1−Φ(−Xβ)=Φ(Xβ)
ostatnia równość wynika z właściwości „odbijającej” standardowej funkcji rozkładu skumulowanego, która pochodzi z symetrii funkcji gęstości wokół zera. Zauważ, że chociaż założyliśmy, że jest niezależny od X , uwarunkowanie X jest konieczne, aby potraktować wielkość X β jako nieprzypadkową.uXXXβ
Jeśli założymy, że , otrzymujemy model teoretycznyXβ=b0+b1X1+b2X2
P(y=1∣X)=Φ(b0+b1X1+b2X2)(1)
Niech teraz będzie niezależny od X 1 i błędnie wyłączony ze specyfikacji regresji leżącej u podstaw. Więc określamyX2X1
Załóżmy ponadto, że X 2 jest również normalną zmienną losową X 2 ∼ N ( μ 2 , σ 2 2 ) . Ale to oznacza, że
y∗=b0+b1X1+ϵ
X2X2∼N(μ2,σ22)
ϵ=u+b2X2∼N(b2μ2,1+b22σ22)
z powodu zamknięcia-dodania rozkładu normalnego (i założenia niezależności). Stosując tę samą logikę jak poprzednio, oto mamy
P(y=1∣X1)=P(y∗>0∣X1)=P(b0+b1X1+ϵ>0∣X1)=P(ϵ>−b0−b1X1∣X1)
ϵ
P(y=1∣X1)=1−P⎛⎝⎜ϵ−b2μ21+b22σ22−−−−−−−√≤−(b0+b2μ2)1+b22σ22−−−−−−−√−b11+b22σ22−−−−−−−√X1∣X1⎞⎠⎟
⇒P(y=1∣X1)=Φ⎛⎝⎜(b0+b2μ2)1+b22σ22−−−−−−−√+b11+b22σ22−−−−−−−√X1⎞⎠⎟(2)
and one can compare models (1) and (2).
The above theoretical expression, tells us where our maximum likelihood estimator of b1 is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):
b^1→pb11+b22σ22−−−−−−−√⟹|b^1|<|b1|
which is the "bias towards zero" result.
We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of ϵ. The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).