Aby odpowiedzieć na pierwsze pytanie, masz rację, że dobór próby jest specyficzną formą endogeniczności (zobacz dobry przegląd endogenności i typowych środków zaradczych w Antonakis i in. 2010), jednak nie masz racji twierdząc, że prawdopodobieństwo leczenia jest zmienną endogenną, ponieważ jest to sama zmienna terapeutyczna („nieprzypadkowe przypisanie leczenia”) - a nie prawdopodobieństwo leczenia - która jest endogenna w doborze próby. Przypomnijmy, że endogeniczność odnosi się do sytuacji, w której nieprawidłowo zidentyfikowano związek przyczynowy między czynnikiem X i czynnikiem Y, gdy zaobserwowana „zależność” jest w rzeczywistości spowodowana innym czynnikiem Z, który wpływa zarówno na X, jak i Y. Mówiąc inaczej, biorąc pod uwagę model regresji :
yi=β0+β1xi+...+ϵi
endogeniczność występuje, gdy jeden lub więcej predyktorów jest powiązanych z terminem błędu w modelu. To znaczy, gdy .Cov(x,ϵ)≠0
Typowe przyczyny endogenności obejmują:
- Pominięte zmienne (niektórych rzeczy, których po prostu nie możemy zmierzyć)
- Motywacja / wybór
- Umiejętność / talent
- Samowybór
- Błąd pomiaru
(chcielibyśmy uwzględnić , ale obserwujemy tylko x j ∗ )xjotxjot∗
- Jednoczesność / dwukierunkowość (u dzieci poniżej 5 roku życia związek między wskaźnikiem stanu odżywienia „waga dla wieku” a tym, czy dziecko niedawno chorowało, może być jednoczesny.
Różne rodzaje problemów wymagają nieco odmiennych rozwiązań, na tym polega różnica między korektami typu IV i Heckmana. Oczywiście istnieją różnice w mechanice leżącej u podstaw tych metod, ale założenie jest takie samo: polegające na usunięciu endogeniczności, najlepiej poprzez ograniczenie wykluczenia, tj. Jeden lub więcej instrumentów w przypadku IV lub zmiennej wpływającej na wybór, ale nie wynik w przypadku Heckmana.
Aby odpowiedzieć na drugie pytanie, musisz pomyśleć o różnicach w rodzajach ograniczeń danych, które doprowadziły do opracowania tych rozwiązań. Lubię myśleć, że podejście do zmiennej instrumentalnej (IV) stosuje się, gdy jedna lub więcej zmiennych jest endogennych i po prostu nie ma dobrych pośredników, które można by trzymać w modelu, aby usunąć endogenność, ale zmienne towarzyszące i wyniki są obserwowane dla wszystkich obserwacji. Z drugiej strony korekty typu Heckmana są używane, gdy występuje obcięcie, tzn. Informacja nie jest obserwowana dla próbek w próbce, w których wartość zmiennej selekcyjnej == 0.
Podejście do zmiennej instrumentalnej (IV)
Pomyśl o klasycznym ekonometrycznym przykładzie regresji IV z dwustopniowym estymatorem najmniejszych kwadratów (2SLS): wpływ edukacji na zarobki.
(1)mia r n i n gsja= β0+ β1O w n E.reja+ ϵja
Tutaj poziom osiągnięć edukacyjnych ma charakter endogenny, ponieważ jest częściowo determinowany motywacją i umiejętnościami danej osoby, które wpływają również na zarobki danej osoby. Motywacja i zdolność zwykle nie są mierzone w badaniach gospodarstw domowych lub ekonomii. Równanie 1 można zatem napisać tak, aby wyraźnie zawierało motywację i umiejętności:
(2)Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi
Ponieważ i b ı l nie są w rzeczywistości zaobserwować, Równanie 2 można zapisać jako:MotivAbil
(3),Earningsi=β0+β1OwnEdi+ui
gdzie (4).ui=β2Motivi+β3Abili+ϵi
Dlatego naiwne oszacowanie wpływu edukacji na zarobki za pośrednictwem OLS byłoby tendencyjne. Ta część, którą już znasz.
W przeszłości ludzie wykorzystywali edukację rodziców jako narzędzia dla własnego poziomu wykształcenia badanego, ponieważ spełniają 3 wymagania dla ważnego instrumentu ( ):z
- musi być związane z endogennym predyktorem - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) ≠ 0 ,zCov(z,x)≠0
- nie może być bezpośrednio związane z wynikiem - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0 izCov(z,y)=0
- nie można powiązać z nieobserwowalną (u) cechą (to znaczy, z jest egzogenny) - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑢 ) = 0zzCov(z,u)=0
Po oszacowaniu wykształcenia badanego ( ) przy użyciu wykształcenia rodziców ( M o m E d i D a d E d ) na pierwszym etapie i użyj przewidywanej wartości wykształcenia ( ^ O w n E d ) do oszacowania e R n i n g a w drugim etapie, to jest (w sposób bardzo uproszczony) określającą E w R n i n g a na podstawie tej częściOwnEdMomEdDadEdOwnEdˆEarningsEarnings który nie jest determinowany motywacją / umiejętnościami.OwnEd
Korekty typu Heckmana
Jak ustaliliśmy wcześniej, nieprzypadkowy dobór próby jest szczególnym rodzajem endogeniczności. W tym przypadku pominiętą zmienną jest sposób wyboru osób do próby. Zazwyczaj, gdy masz problem z wyborem próbki, twój wynik jest obserwowany tylko dla tych, dla których wybór próbki variable == 1
. Ten problem jest również znany jako „przypadkowe obcięcie”, a rozwiązanie jest powszechnie znane jako korekcja Heckmana. Klasycznym przykładem w ekonometrii jest oferta płacowa zamężnych kobiet:
(5 )Wagei=β0+β1Educi+β2Experiencei+β3Experience2i+ϵi
Wages
Wage∗i=Xβ′+ϵi
LaborForce∗i=Zγ′+νi
That is, Wage=Wage∗i IFF LaborForce∗i>0 and Wage=. IFF LaborForce∗i≤0
The solution here is therefore to predict the likelihood of participation in the labor force at first stage using a probit model and the exclusion restriction (the same criteria for valid instruments apply here), calculate the predicted inverse Mills ratio (λ^) for each observation, and in second stage, estimate the wage offer using the λ^ as a predictor in the model (Wooldridge 2009). If the coefficient on λ^ is statistically equal to zero, there is no evidence of sample selection (endogeneity), and OLS results are consistent and can be presented. If the coefficient on λ^ is statistically significantly different from zero, you will need to report the coefficients from the corrected model.
References
- Antonakis, John, Samuel Bendahan, Philippe Jacquart, and Rafael
Lalive. 2010. “On Making Causal Claims: A Review and
Recommendations.” The Leadership Quarterly 21 (6): 1086–1120.
doi:10.1016/j.leaqua.2010.10.010.
- Wooldridge, Jeffrey M. 2009.
Introductory Econometrics: A Modern Approach. 4th ed. Mason, OH,
USA: South-Western, Cengage Learning.