Jak dokładnie „model efektów losowych” w ekonometrii odnosi się do modeli mieszanych poza ekonometrią?


56

Kiedyś myślałem, że „model efektów losowych” w ekonometrii odpowiada „modelowi mieszanemu z przypadkowym przechwytywaniem” poza ekonometrią, ale teraz nie jestem pewien. Czy to?

Ekonometria używa terminów takich jak „efekty stałe” i „efekty losowe” nieco inaczej niż w literaturze na temat modeli mieszanych, co powoduje notoryczne zamieszanie. Rozważmy prostą sytuację, w której liniowo zależy od ale z innym przecięciem w różnych grupach pomiarów:yx

yit=βxit+ui+ϵit.

Tutaj każdą jednostkę / grupę obserwuje się w różnych punktach czasowych . Ekonometrycy nazywają to „danymi panelowymi”.it

  • W terminologii modeli mieszanych możemy traktować jako efekt stały lub efekt losowy (w tym przypadku jest to przypadkowe przechwycenie). Traktowanie go jako naprawionego oznacza dopasowanie i celu zminimalizowania błędu kwadratu (tj. Uruchomienie regresji OLS z zmiennymi grupami zastępczymi). Traktowanie go jako losowego oznacza, że ​​dodatkowo zakładamy, że i używamy maksymalnego prawdopodobieństwa, aby dopasować i zamiast dopasowywać każdy osobno. Prowadzi to do efektu „częściowy pooling”, gdzie szacunki się skurczyła się w kierunku ich średniej .puiu i u i ~ N ( U 0 , σ 2 U ) U 0 σ 2 U U I U I U 0β^u^iuiN(u0,σu2)u0σu2uiu^iu^0

    R formula when treating group as fixed:    y ~ x + group
    R formula when treating group as random:   y ~ x + (1|group)
    
  • W terminologii ekonometrycznej cały model możemy traktować jako model efektów stałych lub jako model efektów losowych. Pierwsza opcja odpowiada powyższemu ustalonemu efektowi (ale ekonometria ma w tym przypadku swój własny sposób szacowania ). Kiedyś myślałem, że druga opcja odpowiada powyższemu losowemu efektowi; np. @JiebiaoWang w swojej bardzo pozytywnej odpowiedzi na pytanie: Jaka jest różnica między efektami losowymi, stałymi i marginalnymi? mówi że β"within" estimator

    W ekonometrii model efektów losowych może odnosić się wyłącznie do modelu losowego przechwytywania, jak w przypadku biostatystyki

OK --- przetestujmy, czy to zrozumienie jest prawidłowe. Oto kilka danych losowych wygenerowanych przez @ChristophHanck w odpowiedzi na pytanie Jaka jest różnica między modelami efektu stałego, efektu losowego i efektu mieszanego? ( Tutaj umieszczam dane na pastebin dla tych, którzy nie używają R):

wprowadź opis zdjęcia tutaj

@Christoph wykonuje dwa ataki za pomocą metod ekonometrycznych:

fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")

Pierwszy daje oszacowanie beta równe -1.0451, drugi 0.77031(tak, pozytywny!). Próbowałem go odtworzyć za pomocą lmi lmer:

l1 = lm(stackY ~ stackX + as.factor(unit), data = paneldata)
l2 = lmer(stackY ~ stackX + (1|as.factor(unit)), data = paneldata)

Pierwszy daje wynik -1.045idealnie zgodny z powyższym estymatorem wewnątrz. Chłodny. Ale drugi daje plony -1.026, które są mile od estymatora efektów losowych. Heh Co się dzieje? W rzeczywistości, co plmnawet robi , gdy jest wywoływany model = "random"?

Cokolwiek to robi, czy można to jakoś zrozumieć z perspektywy modeli mieszanych?

A jaka jest intuicja stojąca za tym, co robi? Czytałem w kilku miejscach ekonometrycznych, że estymator efektów losowych jest średnią ważoną między estymatorem efektów stałych a tym, "between" estimatorktóry jest mniej więcej nachyleniem regresji, jeśli w ogóle nie uwzględnimy tożsamości grupy w modelu (ta ocena jest silnie dodatnia w tym sprawa, wokół 4.) Np. @Andy pisze tutaj :

Estymator efektów losowych wykorzystuje następnie średnią ważoną macierzy wartości zmian w obrębie danych i między nimi. [...] To sprawia, że ​​efekty losowe są bardziej wydajne [.]

Dlaczego? Dlaczego mielibyśmy chcieć tej średniej ważonej? A w szczególności dlaczego mielibyśmy chcieć zamiast uruchamiania modelu mieszanego?


8
Wow, ponad 20 pozytywnych opinii i sześć pouczających odpowiedzi w mniej niż 24 godziny, ale wszystkie skupiają się na ekonometrycznej stronie myśli. Jak dotąd żadna odpowiedź nie łączy się z modelami mieszanymi.
ameba mówi Przywróć Monikę


Odpowiedzi:


16

Podsumowanie: „model efektów losowych” w ekonometrii i „mieszany model losowego przechwytywania” są rzeczywiście tymi samymi modelami, ale są szacowane na różne sposoby. Ekonometria polega na użyciu FGLS, a metoda mieszana na modelu ML. Istnieją różne algorytmy wykonywania FGLS, a niektóre z nich (w tym zestawie danych) dają wyniki bardzo zbliżone do ML.


1. Różnice między metodami szacowania w plm

Odpowiem na moje pytania dotyczące plm(..., model = "random")i lmer()przy użyciu danych wygenerowanych przez @ChristophHanck.

Zgodnie z instrukcją pakietu PLM istnieją cztery opcje random.method: metody szacowania składników wariancji w modelu efektów losowych. @amoeba użył domyślnego swar(Swamy i Arora, 1972).

W przypadku modeli efektów losowych dostępne są cztery estymatory parametru transformacji poprzez ustawienie random.method na jeden z „swar” (Swamy i Arora (1972)) (domyślnie), „amemiya” (Amemiya (1971)), „walhus” ( Wallace and Hussain (1969)) lub „nerlove” (Nerlove (1971)).

Przetestowałem wszystkie cztery opcje przy użyciu tych samych danych, otrzymując błądamemiya i trzy całkowicie różne oszacowania współczynnika dla zmiennej stackX. Te z używania random.method='nerlove'i „amemiya” są prawie równoważne do tych z lmer()-1.029 i -1.025 vs. -1.026. Nie różnią się one również bardzo od uzyskanych w modelu „efektów stałych”, -1.045.

# "amemiya" only works using the most recent version:
# install.packages("plm", repos="http://R-Forge.R-project.org")

re0 <- plm(stackY~stackX, data = paneldata, model = "random") #random.method='swar'
re1 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='amemiya')
re2 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='walhus')
re3 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='nerlove')
l2  <- lmer(stackY~stackX+(1|as.factor(unit)), data = paneldata)

coef(re0)     #    (Intercept)   stackX    18.3458553   0.7703073 
coef(re1)     #    (Intercept)   stackX    30.217721   -1.025186 
coef(re2)     #    (Intercept)   stackX    -1.15584     3.71973 
coef(re3)     #    (Intercept)   stackX    30.243678   -1.029111 
fixef(l2)     #    (Intercept)   stackX    30.226295   -1.026482 

Niestety nie mam teraz czasu, ale zainteresowani czytelnicy mogą znaleźć cztery referencje, aby sprawdzić swoje procedury szacowania. Byłoby bardzo pomocne dowiedzieć się, dlaczego robią taką różnicę. Oczekuję, że w niektórych przypadkach plmprocedura szacowania wykorzystująca lm()przekształcone dane powinna być równoważna procedurze maksymalnego prawdopodobieństwa zastosowanej w lmer().

2. Porównanie GLS i ML

Autorzy plmpakietu porównali dwa w rozdziale 7 swojej pracy: Yves Croissant i Giovanni Millo, 2008, Panel Data Econometrics in R: The plm package .

Ekonometria dotyczy głównie danych nie eksperymentalnych. Duży nacisk kładziony jest na procedury specyfikacji i testy błędnej specyfikacji. Specyfikacje modeli są zatem zwykle bardzo proste, a jednocześnie dużą uwagę przywiązuje się do kwestii endogeniczności regresorów, struktur zależności w błędach i odporności estymatorów w przypadku odchyleń od normalności. Preferowane podejście jest często pół- lub nieparametryczne, a techniki spójne z heteroskedastycznością stają się standardową praktyką zarówno w szacowaniu, jak i testowaniu.

Z tych wszystkich powodów estymacja modelu panelu [...] w ekonometrii realizowana jest głównie w uogólnionej strukturze najmniejszych kwadratów w oparciu o twierdzenie Aitkena [...]. Wręcz przeciwnie, w podłużne modele danych nlmei lme4są szacowane przez (ograniczonego lub nieograniczonego) maksymalnego prawdopodobieństwa. [...]

Ekonometryczne podejście GLS ma zamknięte rozwiązania analityczne obliczalne za pomocą standardowej algebry liniowej i chociaż te ostatnie mogą czasem stać się ciężkie obliczeniowo na maszynie, wyrażenia estymatorów są zwykle dość proste. Przeciwnie, oszacowanie ML modeli wzdłużnych opiera się na numerycznej optymalizacji funkcji nieliniowych bez rozwiązań w postaci zamkniętej, a zatem zależy od aproksymacji i kryteriów konwergencji.


3. Aktualizacja modeli mieszanych

Doceniam to, że @ChristophHanck przedstawił dokładne wprowadzenie na temat czterech random.methodzastosowanych w nich plmi wyjaśnił, dlaczego ich szacunki są tak różne. Zgodnie z prośbą @amoeba dodam kilka przemyśleń na temat modeli mieszanych (opartych na prawdopodobieństwie) i ich związku z GLS.

Metoda oparta na prawdopodobieństwie zwykle zakłada rozkład zarówno losowego efektu, jak i błędu. Powszechnie stosuje się założenie o rozkładzie normalnym, ale istnieją również badania, w których zakłada się rozkład nietypowy. Będę postępować zgodnie z notacjami @ ChristophHanck dla modelu losowego przechwytywania i pozwolę na niezrównoważone dane, tj. Niech .T=ni

Model to with .

yit=xitβ+ηi+ϵiti=1,,m,t=1,,ni
ηiN(0,ση2),ϵitN(0,σϵ2)

Dla każdego , Więc funkcja log-likelihood toi

yiN(Xiβ,Σi),Σi=ση21ni1ni+σϵ2Ini.
const12ilog|Σi|12i(yiXiβ)Σi1(yiXiβ).

Kiedy wszystkie wariancje są znane, jak pokazano w Laird i Ware (1982), MLE to co odpowiada GLS wyprowadzony przez @ChristophHanck. Tak więc kluczową różnicą jest oszacowanie wariancji. Biorąc pod uwagę, że nie ma rozwiązania w formie zamkniętej, istnieje kilka podejść:

β^=(iXiΣi1Xi)1(iXiΣi1yi),
β^RE
  • bezpośrednia maksymalizacja funkcji log-wiarygodności za pomocą algorytmów optymalizacyjnych;
  • Algorytm Expectation-Maximization (EM): istnieją rozwiązania w formie zamkniętej, ale estymator dla obejmuje empiryczne bayesowskie oszacowania losowego przechwytywania;β
  • kombinacja powyższych dwóch algorytmów: Expectation / Conditional Maximization Either (ECME) (Schafer, 1998; pakiet R lmm). Przy innej parametryzacji istnieją rozwiązania w formie zamkniętej dla (jak wyżej) i . Rozwiązanie dla można zapisać jako gdzie jest zdefiniowane jako i można je oszacować w ramach EM.βσϵ2σϵ2
    σϵ2=1inii(yiXiβ^)(ξ^1ni1ni+Ini)1(yiXiβ^),
    ξση2/σϵ2

Podsumowując, MLE ma założenia dotyczące dystrybucji i jest szacowane w algorytmie iteracyjnym. Kluczowa różnica między MLE i GLS polega na oszacowaniu wariancji.

Croissant i Millo (2008) zwrócili na to uwagę

Podczas gdy w normalności homoskedastyczność i brak seryjnej korelacji błędów OLS są również estymatorem maksymalnego prawdopodobieństwa, we wszystkich pozostałych przypadkach występują istotne różnice.

Moim zdaniem, przy założeniu rozkładu, podobnie jak różnica między podejściami parametrycznymi i nieparametrycznymi, MLE byłby bardziej wydajny, gdy założenie się utrzymuje, a GLS byłby bardziej solidny.


Podejrzewam, że problem z komunikatem o błędzie jest w jakiś sposób związany z generowaniem zmiennych jako wektorów? Może plm woli, aby dane były przechowywane inaczej?
Christoph Hanck

1
nerlovedziała tutaj dobrze, ale nie jest zaimplementowane dla niezbilansowanych paneli, o czym przekonałem się, usuwając 1 obserwację z ostatniego panelu i próbując uruchomić wszystkie metody.
ameba mówi Przywróć Monikę

2
@ChristophHanck @amoeba The plmbłędu dla random.method="amemiya"przychodzi mi do głowy, że prawdopodobnie należy użyć X[, -1, drop=FALSE]zamiast X[, -1]zachować format macierzy X[, -1], gdy istnieje tylko jeden zmiennej objaśniającej w modelu. W każdym razie próbowałem przezwyciężyć to, dodając do formuły standardową zmienną normalną. amemiyaodtwarza wynik z oszacowaniem -1,02 i działa również w przypadku niezrównoważonych danych.
Randel,

3
@ jiebiao-wang @ChristophHanck @amoeba obecna wersja programistyczna PLM działa dobrze z random.method="amemiya": var std.dev share idiosyncratic 0,6360 0,7975 0,002 indywidualna 313,6510 17,7102 0,998 theta: 0,9841
Helix123

1
Cześć @JiebiaoWang. Uznałem, że po aktualizacji Twoja odpowiedź w zadowalający sposób odpowiada na moje pytanie. Pozwoliłem sobie na wprowadzenie pewnych zmian i wstawienie aktualizacji amemiyana temat ML vs. GLS. Oznaczam to jako zaakceptowane i przyznam nagrodę. Twoje zdrowie.
ameba mówi Przywróć Monikę

17

Ta odpowiedź nie komentuje modeli mieszanych, ale mogę wyjaśnić, co robi estymator efektów losowych i dlaczego to popsuło ten wykres.

Podsumowanie: estymator efektów losowych przyjmuje , co nie jest prawdą w tym przykładzie.E[uix]=0


Co robi estymator efektów losowych?

Załóżmy, że mamy model:

yit=βxit+ui+ϵit

Mamy dwa wymiary zmienności: grupy oraz czas . Aby oszacować możemy:itβ

  1. Używaj tylko zmian szeregów czasowych w obrębie grupy. To właśnie robi estymator o stałym efekcie (i dlatego często nazywany jest również estymatorem wewnętrznym).
  2. Jeśli jest losowy, moglibyśmy zastosować tylko zmienność przekroju między szeregami czasowymi grup. Jest to znane jako estymator między .ui

    W szczególności dla każdej grupy weź średnią z powyższego modelu danych panelu, aby uzyskać:i

    y¯i=βx¯i+vi where vi=ui+ϵ¯i

    Jeśli uruchomimy tę regresję, otrzymamy estymator między. Zauważ, że jest to spójny estymator, jeśli efekty są losowym białym szumem, nieskorelowanym z ! W takim przypadku całkowite przerzucenie zmienności między grupami (tak jak w przypadku estymatora efektów stałych) jest nieefektywne.uix

Estymator efektów losowych ekonometrii łączy (1) w estymatorze (tj. Estymator efektów stałych) i (2) pomiędzy estymatorem w celu maksymalizacji wydajności. Jest to zastosowanie uogólnionych metod najmniejszych kwadratów, a podstawową ideą jest odwrotne ważenie wariancji . Aby zmaksymalizować wydajność, estymator efektów losowych oblicza jako średnią ważoną estymatora wewnątrz i między estymatorem.β^

Co dzieje się na tym wykresie ...

Wystarczy spojrzeć na ten wykres, aby wyraźnie zobaczyć, co się dzieje:

  • W obrębie każdej grupy (tj. Kropek tego samego koloru) wyższy jest powiązany z niższymixityit
  • Grupa z wyższym ma wyższe .ix¯iui

Założenie, że efekty losowe wyraźnie nie jest spełnione. Efekty grupowe nie są prostopadłe do (w sensie statystycznym), a raczej efekty grupowe mają wyraźny pozytywny związek z .E[uix]=0uixx

Estymator pomiędzy zakłada . Estymator pomiędzy mówi: „na pewno mogę narzucić , czyniąc dodatnim!”E[uix]=0E[uix]=0β^

Z kolei estymator efektów losowych jest wyłączony, ponieważ jest średnią ważoną estymatora wewnątrz i między estymatorem.


+1, dzięki Matthew. Nie jestem pewien, dlaczego ktoś przegłosował twoją odpowiedź. Szukam odpowiedzi nawiązującej do modeli mieszanych, więc nie zaakceptuję twojej, ale nadal uważam ją za pomocną w tej dyskusji. Jeśli możesz nieco rozwinąć sposób stosowania i obliczania GLS i odwrotnej wagi wariancji, byłoby to bardzo przydatne.
ameba mówi Przywróć Monikę

16

W tej odpowiedzi chciałbym trochę rozwinąć odpowiedź Matthew +1 dotyczącą perspektywy GLS na to, co literatura ekonometryczna nazywa estymatorem efektów losowych.

Perspektywa GLS

Rozważ model liniowy Gdyby utrzymywał, że , moglibyśmy po prostu oszacować model na podstawie puli OLS , co oznacza zignorowanie struktury danych panelu i po prostu zsumowanie wszystkich obserwacji razem .

yit=α+Xitβ+uiti=1,,m,t=1,,T
E(uit|Xit)=0n=mT

Mamy model za pomocą modelu błędów składnikuit

uit=ηi+ϵit

W notacji macierzowej model można zapisać jako gdzie i są wektorami z typowymi wektorami elementy i , a to (jedna kolumna na jednostkę) macierz zmiennych zmiennych. jest takie, że jeśli wiersz odpowiada obserwacji należącej do jednostki , to ma jeden w kolumnie a 0 w innym przypadku, .

y=αιmT+Xβ+Dη+ϵ
yϵnyitϵitDn×mDiDii=1,,m

Ponadto zakładamy, że

E(ϵϵ)=σϵ2I

Indywidualne efekty muszą być niezależne od . Estymator efektów losowych, w przeciwieństwie do efektów stałych (ponownie, terminologia ekonometryczna), wymaga jednak dodatkowo silniejszego założenia, że Przy tym założeniu, pula OLS byłby obiektywny, ale możemy uzyskać estymator GLS. Załóżmy, że są IID ze średnią zero i wariancją .ηϵit

E(ηi|X)=0
ηiση2

To założenie uwzględnia pojęcie efektów losowych . Zakładając ponadto, że dwa składniki błędu są niezależne, łatwo zauważyć, że

Var(uit)=ση2+σϵ2Cov(uit,uis)=ση2Cov(uit,ujs)=0for all ij

Następnie otrzymujemy następującą macierz wariancji-kowariancji : tu z -wektor jedynek. Możemy więc napisać Dla estymatora GLS wymagamy . W tym celu pozwól ,n×nΩ

Ω=(ΣOOOΣOOOΣ)
Σ=ση2ιι+σϵ2IT
ιT
Ω=ση2(Imιι)+σϵ2(ImIT)
β^RE=(XΩ1X)1XΩ1y
Ω1JT=ιιJ¯T=JT/TET=ITJ¯T . Następnie napisz lub , zbieranie warunków z tymi samymi macierzami, Idempotencja i pozwala nam pokazać, że gdzie .
Ω=Tση2(ImJ¯T)+σϵ2(ImET)+σϵ2(ImJ¯T)
Ω=(Tση2+σϵ2)(ImJ¯T)+σϵ2(ImET)
P=ImJ¯TQ=ImET
Ω1=1σ12P+1σϵ2Q=ση2σ12σϵ2(Imιι)+1σϵ2(ImIT),
σ12=Tση2+σϵ2

Logika Gaussa-Markowa wyjaśnia następnie, dlaczego estymator efektów losowych może być przydatny, ponieważ jest bardziej wydajnym estymatorem niż połączony OLS lub efekty stałe przy danych założeniach (pod warunkiem, że jest to bardzo duże, jeśli w wielu aplikacjach danych panelowych, że są rzeczywiście nieskorelowane z regresorami). Krótko mówiąc, GLS jest bardziej wydajny, ponieważ macierz kowariancji błędów nie jest homoskedastyczna w tym modelu.ηi

Można wykazać, że oszacowanie GLS można uzyskać, uruchamiając OLS na częściowo ograniczonych danych: gdzie . Dla otrzymuje się stały estymator efektu („w obrębie”). Dla można uzyskać estymator „między”. Estymator GLS jest średnią ważoną między nimi. (Dla otrzymuje się pulę estymatora OLS.)

(yitθy¯i)=(XitθX¯i)β+(uitθui),
θ=1ση/σ1θ=1θθ=0

Wykonalny GLS

Aby podejście FGLS było praktyczne, potrzebujemy estymatorów i . Baltagi, Analiza ekonometryczna danych panelowych, s. 1 16 (cytat z 3. edycji), omawia następujące opcje, jak postępować.σ12σϵ2

Załóżmy, że najpierw obserwujemy . Następnie,uit

σ^12=T1mi=1mu¯i2
i byłyby dobrymi estymatorami ich parametrów, przy czym średnia czasowa odpowiadająca obserawnościom jednostki .
σ^ϵ2=1m(T1)i=1mt=1T(uit1mi=1mu¯i)2
u¯ii

Podejście Wallace'a i Husseina (1969) polega na zastąpieniu resztkami zbiorczej regresji OLS (która przecież nadal jest bezstronna i spójna przy obecnych założeniach).u

Podejście Amemiya (1971) sugeruje stosowanie reszt FE (lub LSDV). W ramach obliczeń nakładamy ograniczenie, że aby ominąć pułapkę zmiennej manekina, aby móc uzyskać o oznaczający wielkich Średnie i dla reszt LSDV .iηi=0α^=y¯X¯β^FEitu^=yα^Xβ^FE

Domyślne podejście Swamy i Arora (1972) szacuje i Tutaj, .

σ^ϵ2=[yQ(IX(XQX)1XQ)y]/[m(T1)K]
σ^12=[yP(IZ(ZPX)1ZP)y]/[mK1]
Z=(ιmTX)

Podejście Nerlove (1971) szacuje z gdzie są manekinami z regresji o ustalonych efektach, a jest szacowany na podstawie resztkowych sum kwadratów z tej regresji, z w mianowniku.ση2i=1m(η^iη^¯)2/(m1)η^iσ^ϵ2mT

Jestem również bardzo zaskoczony, że mają one tak wielką różnicę, jak pokazują obliczenia Randel!

EDYTOWAĆ:

Jeśli chodzi o różnice, szacunki składników błędu mogą zostać ponownie pobrane w plmpakiecie i rzeczywiście zwracają znacznie różne wyniki, wyjaśniając różnicę w szacunkach punktowych dla (zgodnie z odpowiedzią @ Randel, zgłasza błąd, którego nie próbowałem naprawić):βamemiya

> ercomp(stackY~stackX, data = paneldata, method = "walhus")
                  var std.dev share
idiosyncratic 21.0726  4.5905 0.981
individual     0.4071  0.6380 0.019
theta:  0.06933  
> ercomp(stackY~stackX, data = paneldata, method = "swar")
                 var std.dev share
idiosyncratic 0.6437  0.8023 0.229
individual    2.1732  1.4742 0.771
theta:  0.811  
> ercomp(stackY~stackX, data = paneldata, method = "nerlove")
                   var  std.dev share
idiosyncratic   0.5565   0.7460 0.002
individual    342.2514  18.5000 0.998
theta:  0.9857  

Podejrzewam, że estymatory składników błędu również nie są spójne w moim przykładzie w wątku siostrzanym, w którym staram się wykazać różnice między FE i RE za pomocą danych, w których poszczególne efekty i są skorelowane. (W rzeczywistości nie mogą tak być, ponieważ ostatecznie wypierają oszacowanie RE z oszacowania FE, ponieważ RE jest średnią ważoną FE i między oszacowaniem z wagami określonymi przez oszacowania składnika błędu. Więc jeśli RE nie jest spójne, co ostatecznie musi wynikać z tych szacunków).X

Jeśli zastąpisz funkcję „obrażanie” w tym przykładzie,

alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))

po prostu powiedzmy

alpha = runif(n)

więc losowe efekty, które nie są skorelowane z , dają oszacowania punktu RE dla bardzo zbliżone do prawdziwej wartości dla wszystkich wariantów szacowania składników błędu.Xββ=1


Bibliografia

Amemiya, T., 1971, Oszacowanie wariancji w modelu wariancji-składników , International Economic Review 12, 1–13.

Baltagi, BH, Analiza ekonometryczna danych panelowych, Wiley.

Nerlove, M., 1971a, Dalsze dowody na oszacowanie dynamicznych relacji gospodarczych z szeregu czasowego przekrojów , Econometrica 39, 359–382.

Swamy, PAVB i SS Arora, 1972, Dokładne właściwości skończonej próby estymatorów współczynników w modelach regresji składników błędów , Econometrica 40, 261–275.

Wallace, TD i A. Hussain, 1969, Zastosowanie modeli komponentów błędów w łączeniu danych przekroju i szeregów czasowych , Econometrica 37, 55–72.


4
+1. Dzięki Christoph, jest to pomocne i cieszę się, że w końcu mogę zobaczyć pewne matematyczne szczegóły w tym wątku. Byłoby wspaniale sprawdzić, jak działają cztery metody wdrożone plmi wymienione przez Randel, i zaktualizować odpowiedź, dodając kilka komentarzy na jej temat. Jeśli nie szczegółowe opisy, to przynajmniej kilka krótkich notatek o tym, co się dzieje. Myślisz, że byłbyś w stanie to sprawdzić? Z przyjemnością oferuję za to nagrodę :-) Moim naiwnym podejściem byłoby oszacowanie obu sigm na podstawie rozwiązania efektów stałych. Czy odpowiada jednej z „nazwanych” metod?
ameba mówi Przywróć Monikę

@amoeba, zamieściłem kilka uwag na temat szacowania wariancji w modelu komponentu błędu. Twoja sugestia wydaje się więc ściśle powiązana z sugestią Amemiji.
Christoph Hanck

Bardzo fajnie, dziękuję. Czy Nerlove nie stosuje regresji z manekinami? W rzeczywistości nie do końca rozumiem, jaka jest różnica między Amemiya a Nerlove. Moją „naiwną” sugestią było dopasowanie regresji manekina, wykorzystanie wariancji rezydualnej jako oszacowania i wykorzystanie wariancji współczynników fikcyjnych jako oszacowania . Wygląda na to, że właśnie to robi Nerlove. Nie jestem pewien, czy rozumiem, co robi Amemiya i jak się różni. (I zgadzam się, że wciąż pozostaje ogromne pytanie, dlaczego te metody dają taką różnicę w tym przypadku).σϵση
amoeba mówi Przywróć Monikę

Tak, oba używają regresji z manekinami. O ile rozumiem, jedna różnica między Amemiya i Nerlove to mianownik korekty stopni swobody. Innym jest to, że nie jestem pewien, czy wariancja szacowanych współczynników fikcyjnych jest taka sama jak wariancja reszt. Innym kluczowym jest to, że Nerlove bezpośrednio dąży do oszacowania , podczas gdy musiałbyś wycofać oszacowanie za pomocą dla trzech innych , a jedną ze znanych ich wad jest to, że nie ma gwarancji, że są one nieujemne. ση2(σ^12σ^ϵ2)/T
Christoph Hanck

1
Dzięki. Dokonałem edycji, aby podać bardziej jednoznaczną formułę dla , możesz chcieć dwukrotnie sprawdzić (ale myślę, że jest poprawna). Zacząłem nagrodę, którą zamierzam przyznać za twoją odpowiedź. Jednak wciąż szukam odpowiedzi, która narysuje połączenie z modelami mieszanymi, skontrastuje GLS z MLE i wyjaśni, dlaczego i kiedy należy preferować które podejście (żadna z obecnych odpowiedzi tego nie robi, więc obecnie nie ma odpowiedzi, którą chciałbym zaznacz jako „zaakceptowane”). Interesujące jest to, że MLE (zaimplementowane przez ) daje oszacowania wariancji, które są bardzo zbliżone do oszacowań Nerlove. Ω1lmer
ameba mówi Przywróć Monikę

11

Nie bardzo znam się na R, aby skomentować twój kod, ale prosty mieszany model losowego przechwytywania powinien być identyczny z estymatorem RE MLE i bardzo zbliżony do estymatora RE GLS, z wyjątkiem sytuacji, gdy całkowity jest mały i dane są niezrównoważone. Mamy nadzieję, że przyda się to w diagnozowaniu problemu. Oczywiście wszystko to zakłada, że ​​estymator RE jest odpowiedni.N=iTi

Oto kilka Stata pokazujących równoważność (wymaga esttabi eststoz SSC):

set more off
estimates clear
webuse nlswork, clear
eststo, title(mixed): mixed ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure || id: // Mixed estimator
eststo, title(MLE): xtreg ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure, i(id) mle // MLE RE estimator 
eststo, title(GLS): xtreg ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure, i(id) re // GLS RE estimato
esttab *, b(a5) se(a5) mtitle 

Oto wynik ostatniego wiersza:

. esttab *, b(a5) se(a5) mtitle 

------------------------------------------------------------
                      (1)             (2)             (3)   
                    mixed             MLE             GLS   
------------------------------------------------------------
main                                                        
grade            0.070790***     0.070790***     0.070760***
              (0.0017957)     (0.0017957)     (0.0018336)   

age              0.031844***     0.031844***     0.031906***
              (0.0027201)     (0.0027202)     (0.0027146)   

c.age#c.age   -0.00065130***  -0.00065130***  -0.00065295***
             (0.000044965)    (0.000044971)    (0.000044880)   

ttl_exp          0.035228***     0.035228***     0.035334***
              (0.0011382)     (0.0011392)     (0.0011446)   

tenure           0.037134***     0.037134***     0.037019***
              (0.0015715)     (0.0015723)     (0.0015681)   

c.tenure#c~e   -0.0018382***   -0.0018382***   -0.0018387***
             (0.00010128)    (0.00010128)    (0.00010108)   

_cons             0.14721***      0.14721***      0.14691** 
               (0.044725)      (0.044725)      (0.044928)   
------------------------------------------------------------
lns1_1_1                                                    
_cons            -1.31847***                                
               (0.013546)                                   
------------------------------------------------------------
lnsig_e                                                     
_cons            -1.23024***                                
              (0.0046256)                                   
------------------------------------------------------------
sigma_u                                                     
_cons                             0.26754***                
                              (0.0036240)                   
------------------------------------------------------------
sigma_e                                                     
_cons                             0.29222***                
                              (0.0013517)                   
------------------------------------------------------------
N                   28099           28099           28099   
------------------------------------------------------------
Standard errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001

W twoich danych założenia do zastosowania estymatora RE nie są spełnione, ponieważ efekt grupowy jest wyraźnie skorelowany z x, więc otrzymujesz bardzo różne szacunki. Estymator GLS RE jest właściwie uogólnioną metodą estymatorów momentów (GMM), która jest średnią ważoną macierzą pomiędzy estymatorami między nimi. Wewnątrz estymatora będzie tutaj OK, ale pomiędzy będzie głęboko wkręcone, pokazując duże pozytywne efekty X. Więc GLS będzie w większości między estymatorem. MLE RE jest MLE, który maksymalizuje prawdopodobieństwo modelu efektów losowych. Nie oczekuje się już, że dadzą taką samą odpowiedź. Tutaj mieszany estymator daje coś bardzo zbliżonego do estymatora „Wewnątrz” FE:

. esttab *, b(a5) se(a5) mtitle 

----------------------------------------------------------------------------
                      (1)             (2)             (3)             (4)   
                    mixed             GLS             MLE          Within   
----------------------------------------------------------------------------
main                                                                        
x                -1.02502***      0.77031**       3.37983***     -1.04507***
               (0.092425)       (0.26346)       (0.20635)      (0.093136)   

_cons             30.2166***      18.3459***      0.49507         30.3492***
                (5.12978)       (2.31566)             (.)       (0.62124)   
----------------------------------------------------------------------------
lns1_1_1                                                                    
_cons             2.87024***                                                
                (0.20498)                                                   
----------------------------------------------------------------------------
lnsig_e                                                                     
_cons            -0.22598**                                                 
               (0.077195)                                                   
----------------------------------------------------------------------------
sigma_u                                                                     
_cons                                             2.40363                   
                                                (1.28929)                   
----------------------------------------------------------------------------
sigma_e                                                                     
_cons                                             4.23472***                
                                                (0.37819)                   
----------------------------------------------------------------------------
N                      96              96              96              96   
----------------------------------------------------------------------------
Standard errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001

Oto kod Stata dla powyższej tabeli:

clear
set more off
estimates clear

input int(obs id t) double(y x)
1      1           1  2.669271  0.5866982
2      1           2  1.475540  1.3500454
3      1           3  4.430008  0.6830919
4      1           4  2.162789  0.5845966
5      1           5  2.678108  1.0038879
6      1           6  3.456636  0.5863289
7      1           7  1.769204  2.3375403
8      1           8  3.413790  0.9640034
9      2           1  4.017493  1.5084121
10     2           2  4.218733  2.8982499
11     2           3  4.509530  3.2141335
12     2           4  6.106228  2.0317799
13     2           5  5.161379  2.1231733
14     2           6  2.724643  4.3369017
15     2           7  4.500306  1.9141065
16     2           8  4.119322  2.8667938
17     3           1  9.987779  2.3961969
18     3           2  7.768579  3.5509275
19     3           3  9.379788  3.3284869
20     3           4 10.035937  2.2997389
21     3           5 11.752360  2.8143474
22     3           6  9.500264  2.1825704
23     3           7  8.921687  5.0126462
24     3           8  8.269932  3.4046339
25     4           1 12.101253  3.2928033
26     4           2 11.482337  3.1645218
27     4           3 10.648010  4.8073987
28     4           4  9.687320  5.3394193
29     4           5 12.796925  3.1197431
30     4           6  9.971434  4.6512983
31     4           7 10.239717  4.7709378
32     4           8 12.245207  2.7952426
33     5           1 18.473320  5.8421967
34     5           2 19.097212  4.9425391
35     5           3 19.460495  4.9166172
36     5           4 18.642305  4.9856035
37     5           5 17.723912  5.0594425
38     5           6 16.783248  4.8615618
39     5           7 16.100984  6.2069167
40     5           8 18.851351  3.8856152
41     6           1 19.683171  7.5568816
42     6           2 21.104231  6.7441900
43     6           3 22.115529  6.4486514
44     6           4 22.061362  5.3727434
45     6           5 22.457905  5.8665798
46     6           6 21.424413  6.0578997
47     6           7 23.475946  4.4024323
48     6           8 24.884950  4.1596914
49     7           1 25.809011  7.6756255
50     7           2 25.432828  7.7910756
51     7           3 26.790387  7.3858301
52     7           4 24.640850  8.2090606
53     7           5 26.050086  7.3779219
54     7           6 25.297148  6.8098617
55     7           7 26.551229  7.6694272
56     7           8 26.669760  6.4425772
57     8           1 26.409669  8.3040894
58     8           2 26.570003  8.4686087
59     8           3 29.018818  7.2476785
60     8           4 30.342613  4.5207729
61     8           5 26.819959  8.7935557
62     8           6 27.147711  8.3141224
63     8           7 26.168568  9.0148308
64     8           8 27.653552  8.2081808
65     9           1 34.120485  7.8415520
66     9           2 31.286463  9.7234259
67     9           3 35.763403  6.9202442
68     9           4 31.974599  9.0078286
69     9           5 32.273719  9.4954288
70     9           6 29.666208 10.2525763
71     9           7 30.949857  9.4751679
72     9           8 33.485967  8.1824810
73    10           1 36.183128 10.7891587
74    10           2 37.706116  9.7119548
75    10           3 38.582725  8.6388290
76    10           4 35.876781 10.8259279
77    10           5 37.111179  9.9805046
78    10           6 40.313149  7.7487456
79    10           7 38.606329 10.2891107
80    10           8 37.041938 10.3568765
81    11           1 42.617586 12.1619185
82    11           2 41.787495 11.1420338
83    11           3 43.944968 11.1898730
84    11           4 43.446467 10.8099599
85    11           5 43.420819 11.2696770
86    11           6 42.367318 11.6183869
87    11           7 43.543785 11.1336555
88    11           8 43.750271 12.0311065
89    12           1 46.122429 12.3528733
90    12           2 47.604306 11.4522787
91    12           3 45.568748 13.6906476
92    12           4 48.331177 12.3561907
93    12           5 47.143246 11.7339915
94    12           6 44.461190 13.3898768
95    12           7 46.879044 11.4054972
96    12           8 46.314055 12.3143487
end

eststo, title(mixed): mixed y x || id:, mle // Mixed estimator
eststo, title(GLS): xtreg y x, i(id) re     // GLS RE estimato
eststo, title(MLE): xtreg y x, i(id) mle    // MLE RE estimator 
eststo, title(Within): xtreg y x, i(id) fe  // FE Within estimator 
eststo, title(Between): xtreg y x, i(id) be // Between estimator 

esttab *, b(a5) se(a5) mtitle 

+1. Dzięki, Dimitriy, zdecydowanie pomocne jest zobaczenie wyników Staty w tym samym zestawie danych zabawek. Mam pytanie dotyczące estymatora MLE. Myślałem, że podejście mieszane ( mixedw Stacie i lmerR) ma również maksymalne prawdopodobieństwo lub czasami „ograniczone maksymalne prawdopodobieństwo” (mogę użyć obu w mojej lmerrozmowie przez ustawienie REML=Tlub REML=Fi dają one prawie identyczne wyniki). Jednak podejście oparte na modelu mieszanym daje bardzo rozsądny i prawidłowy wynik, podczas gdy to, co Stat nazywa „MLE”, daje w tym przypadku nonsensowny wynik. Jaka jest różnica? Do czego dokładnie odnosi się „MLE” Stat?
ameba mówi Przywróć Monikę

2
@amoeba Zarówno mixed, mlei xtreg, mlesą estymatorami MLE, ale funkcje prawdopodobieństwa są nieco inne. Zobacz tutaj dla pierwszego, a tutaj dla drugiego. Nie do końca rozumiem, dlaczego mixedmodel jest tak solidny.
Dimitriy V. Masterov,

xtmixed to tak zwane mieszanie w starszych wersjach Staty. W przypadku danych równoważność ta oczywiście nie obowiązuje, a dotyczy moich danych, jak sugeruje podręcznik.
Dimitriy V. Masterov

ssc install estoutChociaż pamiętam, że miał różne funkcje w różnych wersjach i nie był kompatybilny wstecz.
StasK,

1
@StasK skontaktował mnie ze wsparciem technicznym Stata i powiedzieli, że to prawdopodobnie błąd xtreg, mle. „Zasadniczo wynik powinien być taki sam [...]. Tego rodzaju różnice zwykle powstają, gdy występują problemy identyfikacyjne w szacowaniu parametrów modelu. [...] Właściwie sprawdziłem numer warunku dla wariancji -macierz kowariancji wynikająca z obu obliczeń i ta liczba jest w zasadzie nieskończona dla -xtreg, mle- i ponad 4000 dla -miksowanych, mle-. [...] programiści [...] ocenią problem, aby ustalić, czy potrzebny jest stały kod ”.
ameba mówi Przywróć Monikę

9

Pozwól mi jeszcze bardziej pomylić rzeczy:

EKONOMETRIA - PODEJŚCIE STAŁYCH EFEKTÓW Podejście
„stałych efektów” w ekonometrii dla danych panelowych, jest sposobem na oszacowanie współczynników nachylenia (beta), poprzez „ominięcie” istnienia indywidualnej zmiennej efektów , a więc przez przyjmowanie jakichkolwiek założeń, czy jest to „ustalone” czy „losowe”. To właśnie robią estymator „Pierwsza różnica” (wykorzystujący pierwsze różnice danych) i estymator „Wewnątrz” (wykorzystujący odchylenia od średnich czasowych): potrafią oszacować tylko bety.αi

W przypadku bardziej tradycyjnego podejścia, które wyraźnie traktuje poszczególne efekty („przechwytuje”) jako stałe, używamy estymatora zmiennej najmniejszej kwadratowej atrapy (LSDV), który zapewnia również szacunki dla uwagi : w modelu liniowym trzy estymatory algebraicznie pokrywają się w odniesieniu do uzyskanych oszacowań dla bet - ale tylko w modelu liniowym.αi

Dyskusja (częściowo fragment notatek z zajęć)

„Główną zaletą podejścia opartego na efektach stałych jest to, że nie musimy przyjmować żadnych założeń dotyczących charakteru poszczególnych efektów. Powinniśmy je stosować, ilekroć podejrzewamy, że są one skorelowane z jednym lub kilkoma regresorami, ponieważ w tym przypadku ignorowanie obecności takiej korelacji i naiwne stosowanie OLS w modelu zbiorczym powoduje niespójne estymatory. Pomimo odwołania ze względu na minimalne założenia, które musimy poczynić w odniesieniu do poszczególnych efektów, podejście z efektami stałymi ma pewne ograniczenia. Po pierwsze, współczynniki czasu niezmiennie regresory nie mogą być oszacowane, ponieważ zmienne te są rozróżniane wraz z nieobserwowalnymi efektami indywidualnymi.poszczególnych efektów (w przypadku gdy używamy estymatora LSDV) nie można konsekwentnie oszacować (chyba że pozwolimy wymiarowi czasu przejść do nieskończoności). ”

EKONOMETRIA - PODEJŚCIE EFEKTÓW
W „tradycyjnym” ekonometrycznym podejściu losowych efektów zakładamy, że poszczególne „przechwytuje” są „stałymi losowymi składnikami”, podczas gdy „zwykłe” terminy błędów są „przejściowymi” składnikami błędu.αi

W interesującym rozszerzeniu dodatkowa losowość wynika z istnienia losowego efektu czasu , wspólnego dla wszystkich przekrojów, ale zmiennego w czasie , wraz ze stałym (stałym) indywidualnym efektem i wartością błędu. Ten „efekt czasowy” może na przykład stanowić zagregowany szok na poziomie całej gospodarki, który dotyczy w równym stopniu wszystkich gospodarstw domowych. Takie zagregowane zaburzenia są rzeczywiście obserwowane, więc wydaje się, że jest to realistyczny wybór modelowania.

W tym przypadku estymator „efektów losowych” jest estymowanym uogólnionym estymatorem najmniejszych kwadratów (GLS) dla zwiększenia wydajności.

Teraz jeszcze jeden wymyślony estymator, estymator „Pomiędzy”, wykonuje OLS na uśrednionych czasowo obserwacjach. W ramach algebry wykazano, że estymator GLS można uzyskać jako średnią ważoną estymatorów Inside i Between, gdzie wagi nie są arbitralne, ale odnoszą się do macierzy VCV tych dwóch.

... istnieją również warianty modeli „Nieskorelowanych efektów losowych” i „Skorelowanych efektów losowych”.

Mam nadzieję, że powyższe informacje pomogą odróżnić modele „efektów mieszanych”.


+1, dzięki Alecos. Jest to pomocne, ale związek tego wszystkiego z podejściem modeli mieszanych pozostaje dla mnie niejasny. Zaczynam podejrzewać, że być może nie ma żadnego związku. Nawiasem mówiąc, między estymatorami pomiędzy i wewnątrz (i że wewnątrz jest równoważne manekinom klasowym) są jasne; moje zamieszanie dotyczy tylko podejścia do efektów losowych.
ameba mówi Przywróć Monikę
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.