Warunkowa średnia niezależność oznacza bezstronność i spójność estymatora OLS


10

Rozważ następujący model regresji wielokrotnej:

(1)Y=Xβ+Zδ+U.

Tutaj jest wektorem kolumny; Macierz a ; a wektor kolumny; a macierz; a wektor kolumnowy; i U , termin błędu, wektor kolumny n \ times1 .Yn×1Xn×(k+1)β(k+1)×1Zn×lδl×1Un×1


PYTANIE

Mój wykładowca, podręcznik Wprowadzenie do ekonometrii, wydanie 3. autorzy James H. Stock i Mark W. Watson, str. 281 oraz Econometrics: Honor's Exam Review Session (PDF) , s. 1. 7, wyraził mi następujące.

  1. Jeśli założymy, że tak zwana warunkowa oznacza niezależność , co z definicji oznacza, że
    (2)E(U|X,Z)=E(U|Z),
  2. a jeżeli założenie najmniejszych kwadratów jest spełnione, z wyjątkiem założenia warunkowego średniego zera E(U|X,Z)=0 (więc przyjmujemy E(U|X,Z)=E(U|Z)0 ) (patrz 1 -3 poniżej),

  3. następnie estymator OLS β^ z β w (1) pozostaje bezstronny i spójny, przy tym słabszym zestawie założeń.

Jak udowodnić tę propozycję? To znaczy, że 1 i 2 powyżej sugerują, że oszacowanie OLS dla daje nam obiektywny i spójny szacunek dla ? Czy jest jakiś artykuł badawczy potwierdzający tę propozycję?ββ


KOMENTARZ

Najprostszy przypadek podano, biorąc pod uwagę model regresji liniowej i udowodnij, że oszacowanie OLS z jest bezstronny, jeśli dla każdego .

Yi=β0+β1Xi+β2Zi+ui,i=1,2,,n,
β 1 β 1 e ( U i | X I , Z i ) = E ( U i | Z I ) : iβ^1β1E(ui|Xi,Zi)=E(ui|Zi)i

DOWÓD NIEBIADOMOŚCI PRZYZNAJĄCY, ŻE I SĄ WSPÓLNIE NORMALNIE ROZPOWSZECHNIANEUiZi

Zdefiniuj , a następnie iZatem można przepisać jako Do następnie wynika, że Teraz, ponieważ i są wspólnie normalnie rozłożone, teoria rozkładów normalnych, por. Wyprowadzając rozkłady warunkowe wielowymiarowego rozkładu normalnego , mówi, że (w rzeczywistości nie musimy zakładać wspólnej normalności, ale tylko tę tożsamość) dla pewnego wektora naV=UE(U|X,Z)U=V+E(U|X,Z)

(*)E(V|X,Z)=0.
(1)
(3)Y=Xβ+Zδ+E(U|X,Z)+V.
(2)
(4)Y=Xβ+Zδ+E(U|Z)+V.
UiZi
(**)E(U|Z)=Zγ
l1γ0 .

Teraz staje się W modelu spełnione są założenia najmniejszych kwadratów, ponieważ warunek błędu spełnia założenie warunkowe oznacza zero. Oznacza to, że oszacowanie OLS dla będzie bezstronne, ponieważ jeśli pozwolimy , a będzie przez macierz złożona z i , a następnie oszacowanie OLS dla w biorąc pod uwagę następujące kwestie:(4)

(5)Y=Xβ+Z(δ+γ)+V.
(5)Vβ β ρ = δ + γ W = ( X , Z ) n ( k + 1 ) + l X Z β ( 5 ) ( β T , ρ T ) Tβ^βρ=δ+γW=(X,Z)n(k+1)+lXZβ(5)
(β^T,ρ^T)T=(WTW)1WTY=(WTW)1WT(W(βT,ρT)T+V)=(βT,ρT)T+(WTW)1WTV

a zatem gdzie druga linia następuje po . Zatem jest warunkowo bezstronnym oszacowaniem ponieważ oszacowanie OLS podane dla modelu pokrywa się z oszacowaniem dla modelu . Teraz, zgodnie z prawem całkowitego oczekiwania, a zatem jest obiektywnym oszacowaniem dla .

E((β^T,ρ^T)T|W)=(βT,ρT)T+(WTW)1WsTE(V|W)=(βT,ρT)T+(WTW)1WT0=(βT,ρT)T,
() β β(1),(5) E ( β )β^β(1)(5)
E(β^)=E(E(β^|W))=E(β)=β,
β ββ^β

(Można zauważyć, że , więc współczynnik na niekoniecznie jest obiektywny.)E(ρ^)=ρ=δ+γδZ

Jednak powyższy szczególny przypadek zakłada, że i są wspólnie dystrybuowane normalnie, jak mogę udowodnić propozycję bez tego założenia?UiZi

Zakładając, że zawsze wystarcza (por. ), ale powinienem uzyskać wynik po prostu za pomocą i założenia najmniejszych kwadratów z wyłączeniem założenia warunkowego średniego zera ( patrz poniżej).E(U|Z)=Zγ()(2)

DOTYCZĄCE SPÓJNOŚCI

Myślę, że można również zauważyć, że oszacowanie jest spójne dla , zauważając, że w modelu regresji spełnione są wszystkie założenia najmniejszych kwadratów, w tym założenie, że (nowy) termin błędu spełnia Założenie warunkowe średniej zerowej (por. I patrz poniżej).β^β(5)V()

Mogę później dodać dowód spójności, który jest oparty na serii ćwiczeń we Wstępie do ekonometrii, wyd. 3. autorzy James H. Stock i Mark W. Watson, rozdz. 18. Jednak ten dowód jest dość długi. Ale chodzi tutaj o to, że dowód dostarczony w ćwiczeniach zakłada , więc wciąż zastanawiam się, czy założenie naprawdę wystarcza.()(2)

SUBQUERY 1

We wstępie do ekonometrii, wyd. 3. James H. Stock i Mark W. Watson, mówi się, na str. 300, że założenie można „rozluźnić” przy użyciu teorii regresji nieliniowej. Co przez to rozumieją?()

NAJMNIEJSZE ZAŁOŻENIA KWADRATÓW

Wykluczam tutaj warunkowe średnie zero zero, że ponieważ twierdzenie, które próbujemy tutaj udowodnić, dopuszcza przypadki, w których . Są to przypadki, gdy na przykład jest skorelowana z . Por. Econometrics: Honor's Exam Review Session (PDF) , s. 1 7E(U|X,Z)=0E(U|X,Z)0ZU

Założenie, że najmniejsze kwadraty są następujące.

  1. Rozkłady wspólne , są iid, gdzie jest -tym elementem w a i są tego rzędu w i .(Yi,Xi,Zi)i=1,2,,n,YiiYXiZiiXZ

  2. Duże odstające są mało prawdopodobne, czyli dla każdego , i mieć skończone czwarty momenty, gdzie to : th element .iXi,ZiUiUiiU

  3. (X,Z) ma pełną rangę kolumny (tzn. Nie ma doskonałej wielokoliniowości; zapewnia to odwracalność ).WTW

  4. ( Rozszerzone założenia najmniejszych kwadratów : Chociaż nie uważam, że jest to konieczne (i powiedziano mi, że tak nie jest), możemy również założyć homoskedastyczność, tj. dla każdego oraz że podany rozkład warunkowy jest normalny dla każdego (tzn. Mamy normalne błędy.))Var(Ui|Xi,Zi)=σU2iUi(Xi,Zi)i

UWAGA DOTYCZĄCA TERMINOLOGII

W założenie, że warunkowo średnia zero jest założeniem, że . Założenie o warunkowej średniej niezależności jest jednak założeniem, że .(1)E(U|X,Z)=0E(U|X,Z)=E(U|Z)

Ta terminologia jest używana np. W Wprowadzenie do ekonometrii, wydanie trzecie. autorzy James H. Stock i Mark W. Watson, str. 281; oraz Analiza ekonometryczna danych przekroju i panelu, wyd. 1. autor: Jeffrey M. Wooldridge, str. 607. Zobacz także warunkowe ograniczenia niezależności: testowanie i szacowanie dla podobnych dyskusji.

DODATKOWE MYŚLI I ZAPYTANIA 2

Myślę, że w przeciwieństwie do Jamesa H. Stocka i Marka W. Watsona, warunkowa niezależność nie zapewnia obiektywnej oceny OLS na poziomie . Wynika to z faktu, że może przyjmować formy nieliniowe, takie jak gdzie jest wielomianem w , lub gdzie jest jakimś parametrem, który należy jeszcze oszacować (tutaj używam macierzy wykładniczej ), a następnie, jak sądzę, należy zastosować regresję nieliniową , co na ogół pozostawia nam tendencyjne oszacowania. Ponadto oszacowanie OLS w (1) może nawet nie pokrywać się z oszacowaniem OLSβE(U|Z)E(U|Z)=p(Z)p(Z)ZE(U|Z)=exp(Zγ)γββw jeśli przyjmuje pewne formy nieliniowe. (Psychologicznie uważam również, że stwierdzenie zawarte w książce Stock & Watson jest zbyt piękne, aby mogło być prawdziwe.)(4)E(U|Z)

Zatem dodatkowym pytaniem jest, czy istnieje jakiś kontrprzykład na twierdzenie, że warunkowa średnia niezależność prowadzi do obiektywnego oszacowania OLS?

SUBQUERY 3

W Przeważnie Nieszkodliwych Ekonometrii Angrist i Pischke argumentują w podrozdziale 3.3, s. 1. 68--91, że w warunkach warunkowej niezależności (CI), tj. jest niezależny od biorąc pod uwagę (co, jak sądzę, jest to silniejszy warunek niż podane powyżej warunkowe założenie średniej niezależności), istnieje ścisły związek między dopasowanymi szacunkami wpływ na i współczynników na w regresji na i który motywuje, że w CI estymacja OLS współczynnika na wYXWXYXYXWX(1) jest mniej stronniczy niż wtedy, gdy CI się nie utrzymuje (wszystkie pozostałe są równe).

Czy ten pomysł można w jakiś sposób wykorzystać do odpowiedzi na moje główne pytanie tutaj?


@ Xi'an Co masz na myśli? Taka jest definicja warunkowej średniej niezależności podana w moim podręczniku: Jeśli w regresji liniowej mamy E ( u i | X i , Z i ) = E ( u i | Z i ) , wtedy mówimy, że mamy warunkową średnią niezależność. Pomyślałem, że mój sposób pisania jest bardziej ogólny. Yi=β0+β1Xi+β2Zi+uimi(uja|Xja,Zja)=mi(uja|Zja)
Elias

@ Xi'an Jak zdefiniowałbyś w tym przypadku „warunkowe niezależne $ ce”? Kiedy o tym myślę, „warunkowa niezależność” jest pojęciem innym niż „warunkowa średnia niezależność”. Mogą, ale nie muszą być koncepcyjnie powiązane.
Elias

@ Xi'an W ten sposób rozumiem pojęcia: niezależność warunkowa to tylko , ale średnia warunkowa niezależność to E ( A | B , C ) = E ( A | C ) . P.(ZAb|do)=P.(ZA|do)P.(b|do)mi(ZA|b,do)=mi(ZA|do)
Elias

Gdzie jest komentarz Xi'ana?
Michael R. Chernick,

@MichaelChernick Jego komentarz był pierwszy. Myślę, że musiał go usunąć. Jak pamiętam, powiedział, że nie oznacza warunkowej niezależności, a ja odpowiedziałem. mi(U|X,Z)=mi(U|Z)
Elias,

Odpowiedzi:


4

To nieprawda. Jak zauważyłeś, jeśli dokładnie czytasz Stocka i Watsona, tak naprawdę nie popierają oni twierdzenia, że ​​OLS jest bezstronny w stosunku do pod warunkową średnią niezależności. Popierają znacznie słabsze twierdzenie, że OLS jest bezstronny dla β, jeśli E ( u | x , z ) = z γ . Następnie mówią coś niejasnego o nieliniowych najmniejszych kwadratach.ββE(u|x,z)=zγ

Twoje równanie (4) zawiera to, czego potrzebujesz, aby stwierdzić, że twierdzenie jest fałszywe. Oszacowanie równania (4) przez OLS z pominięciem zmiennej prowadzi do stronniczości zmiennych pominiętych. Jak zapewne przypomnieć, termin zakłócenia z pominiętymi zmiennych (gdy zmienna pominięte ma współczynnik 1) jest sterowana przez współczynniki z następującym regresji pomocnicze: E ( U | ż ) = x alfa 1 + z α 2 + v The błąd w oryginalnej regresji dla β wynosi α 1E(u|x,z)

E(u|z)=xα1+zα2+ν
βα1z tej regresji, a odchylenie na wynosi α 2 . Jeśli x jest skorelowana z E ( U | oo ) , po skontrolowaniu liniowo do Z , a następnie α 1 będzie niezerowe i współczynnik OLS będzie obciążona.γα2xE(u|z)zα1

Oto przykład na potwierdzenie tego:

ξF(),ζG(),νH()all independentz=ξx=z2+ζu=z+z2E(z+z2)+ν

Patrząc na wzór dla , jasne jest, że E ( u | x , z ) = E ( u | z ) = z + z 2 - E ( z + z 2 ) Patrząc na regresję pomocniczą, jasne jest, że ( bez jakiegoś przypadkowego wyboru F , G , H ) α 1 nie będzie wynosił zero.uE(u|x,z)=E(u|z)=z+z2E(z+z2)F,G,Hα1

Oto bardzo prosty przykład, w Rktórym pokazuje to:

set.seed(12344321)
z <- runif(n=100000,min=0,max=10)
x <- z^2 + runif(n=100000,min=0,max=20)
u <- z + z^2 - mean(z+z^2) + rnorm(n=100000,mean=0,sd=20)
y <- x + z + u

summary(lm(y~x+z))

# auxiliary regression
summary(lm(z+z^2~x+z))

Zauważ, że pierwsza regresja daje współczynnik na który jest przesunięty o 0,63, odzwierciedlając fakt, że x „ma w sobie trochę z 2 ”, podobnie jak E ( u | z ) . Zauważ również, że regresja pomocnicza daje ci szacunkową wartość około 0,63.xxz2E(u|z)

O czym więc mówią Stock i Watson (i twój wykładowca)? Wróćmy do twojego równania (4):

y=xβ+zγ+E(u|z)+v

Ważnym faktem jest to, że pominięta zmienna jest tylko funkcją . Wygląda na to, że gdybyśmy mogli naprawdę dobrze kontrolować Z , wystarczyłoby to do usunięcia błędu systematycznego z regresji, nawet jeśli x może być skorelowany zu .zzxu

Załóżmy, że oszacowaliśmy poniższe równanie za pomocą metody nieparametrycznej do oszacowania funkcji lub przy użyciu poprawnej postaci funkcjonalnej f ( z ) = z γ + E ( u | z ) . Gdybyśmy użyli prawidłowej formy funkcjonalnej, oszacowalibyśmy ją za pomocą nieliniowych najmniejszych kwadratów (wyjaśniając tajemniczy komentarz na temat NLS): y = x β + f ( z ) + v To dałoby nam spójny estymator dla βf()f(z)=zγ+E(u|z)

y=xβ+f(z)+v
β ponieważ nie ma już problemu z pominiętą zmienną.

Ewentualnie, jeśli mieliśmy wystarczająco dużo danych, możemy iść `całą drogę„”w kontrolowaniu do . Moglibyśmy spojrzeć na podzbiór danych, gdzie z = 1 , i po prostu uruchomić regresję: y = x β + v Dałoby to obiektywne, spójne estymatory dla β, z wyjątkiem oczywiście przecięcia, które byłoby zanieczyszczone przez f ( 1 ) . Oczywiście można również uzyskać (inny) spójny, obiektywny estymator, uruchamiając tę ​​regresję tylko w punktach danych, dla których z = 2 . I kolejny dla punktów, w których z = 3zz=1

y=xβ+v
βf(1)z=2z=3. Itd. Wtedy miałbyś kilka dobrych estymatorów, z których możesz zrobić świetny estymator, powiedzmy, uśredniając je wszystkie razem.

Ta ostatnia myśl jest inspiracją do dopasowania estymatorów. Ponieważ zwykle nie mamy wystarczającej ilości danych, aby dosłownie uruchomić regresję tylko dla lub nawet dla par punktów, w których z jest identyczne, zamiast tego uruchamiamy regresję dla punktów, w których z jest `` wystarczająco blisko '', aby być identycznymi.z=1zz


3

Nie możesz udowodnić tego wyniku, ponieważ nie jest to prawda w jego ogólnym stwierdzeniu. Zacznij od modelu w swoim eq. (4)

Y=Xβ+Zδ+(E(U|Z)+V)

gdzie duży nawias oznacza rzeczywisty termin błędu (brak założeń dotyczących warunkowego oczekiwania). Zdefiniuj macierz reszty-twórcy lub matrycy anihilatora , która jest symetryczna, idempotentna i mamy również M Z Z = 0 . MZ=IZ(ZZ)1ZMZZ=0

Mamy to w „wynikach regresji częściowej”

β^OLSβ=(XMZX)1XMZZδ+(XMZX)1XMZE(UZ)+(XMZX)1XMZV

Pierwszy termin po prawej stronie ma już zero. Biorąc pod uwagę oczekiwaną wartość, a następnie stosując właściwość wieży do warunkowego oczekiwania, trzeci okres będzie również wynosił zero (przy użyciu średniej warunkowej niezależności w jej słabszej postaci). Ale do tego stopnia prowadzi nas to słabsze założenie, ponieważ zostaniemy z tym

E(β^OLS)β=E[(XMZX)1XMZE(UZ)]

E(UZ)ZMZZ
β

E(UX,Z)=E(UZ)=Zγ

UZ

β^OLS


M.ZM.z

1
Zz
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.