Jest to odmiana modelu selekcji w ekonometrii. Ważność szacunków przy użyciu tylko wybranej próbki tutaj zależy od warunku, że
. Tutaj jest stan choroby „s. D i iPr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Dii
Aby podać więcej szczegółów, zdefiniuj następujące oznaczenia:
i ; odwołuje się do przypadku, znajduje się w próbce. Ponadto, dla uproszczenia załóżmy, że jest niezależny od . π 0 = Pr ( D i = 0 ) S i = 1 i D i X iπ1=Pr(Di=1)π0=Pr(Di=0)Si=1irejaXja
Prawdopodobieństwo dla jednostki w próbce to
zgodnie z prawem iteracji. Załóżmy, że statusu choroby i innych zmiennych towarzyszących , wynik
jest niezależny od . W rezultacie,
i Pr ( Y i = 1 ∣ X i , S i = 1 )Yja= 1ja DiXiYiSi Pr ( Y i = 1 ∣ X i , S i = 1 )
Pr ( Yja= 1 ∣ Xja, Sja= 1 )===E ( Yja∣ Xja, Sja= 1 )E { E ( Yja∣ Xja, Dja, Sja= 1 ) ∣ Xja, Sja= 1 }Pr ( Dja= 1 ∣ S.ja= 1 ) Pr ( Yja= 1 ∣ Xja, Dja= 1 , S.ja=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0,Si=1),
DiXiYiSiPr(Yi=1∣Xi,Si=1)=Pr(Di=1∣Si=1)Pr(Yi=1∣Xi,Di=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0).
Łatwo zauważyć, że
Tutaj i mają zdefiniowany schemat próbkowania. A zatem,
pi1pi0Pr(Yi=1∣Xi,Si=1)=π1pi1Pr(Di=1∣Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0∣Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0Pr(Yi=1∣Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1∣Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1∣Xi,Di=0).
Jeśli , mamy
i możesz pominąć problem wyboru próbki. Z drugiej strony, jeśli ,
ogólnie. W szczególnym przypadku rozważ model logit,
Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)=Pr(Yi=1∣Xi),
Pr(Yi=1∣Xi,Di=1)≠Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)≠Pr(Yi=1∣Xi)
Pr(Yi=1∣Xi,Di=1)=eX′iα1+eX′iα and Pr(Yi=1∣Xi,Di=0)=eX′iβ1+eX′iβ.
Nawet jeśli i są stałe w , wynikowy rozkład nie zachowa tworzenia logitów. Co ważniejsze, interpretacja parametrów byłaby zupełnie inna. Mam nadzieję, że powyższe argumenty pomogą nieco wyjaśnić twój problem.
pi1pi0i
Kusi nas, aby uwzględnić jako dodatkową zmienną objaśniającą i oszacować model na podstawie . Aby uzasadnić ważność użycia , musimy udowodnić, że , co odpowiada warunkowi, że to wystarczająca statystyka . Bez dalszych informacji na temat procesu pobierania próbek nie jestem pewien, czy to prawda. Użyjmy abstrakcyjnej notacji. Na przykład zmienną obserwowalności można postrzegać jako funkcję losową i innych zmiennych losowychDiPr(Yi∣Xi,Di)Pr(Yi∣Xi,Di)Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di)DiSiSiDiZi . Oznacz . Jeśli
jest niezależny od od i , pozostało
z definicji niezależności. Jeśli jednak nie jest niezależny od po warunkowaniu na i ,
intuicyjnie zawiera pewne istotne informacje o
i ogólnie nie oczekuje się tegoSi=S(Di,Zi)ZiYiXiDiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di)ZiYiXiDiZiYiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Zatem w przypadku „jednak” ignorancja przy doborze próby może być myląca dla wnioskowania. Nie znam się na literaturze doboru próby w ekonometrii. Poleciłbym rozdział 16 Microeconometrics: methods and applications' by Cameron
and Trivedi (especially the Roy model in that chapter). Also G. S.
Maddala's classic book
zmiennych zależnych i zmiennych jakościowych w ekonometrii. Jest to systematyczne podejście do kwestii wyboru próby i dyskretnych wyników.