Co to jest różnica w różnicach?

43

Różnica różnic od dawna jest popularna jako narzędzie nie eksperymentalne, zwłaszcza w ekonomii. Czy ktoś może udzielić jasnej i nietechnicznej odpowiedzi na następujące pytania dotyczące różnic w różnicach.

Co to jest estymator różnicy w różnicach?
Dlaczego estymator różnicy w różnicach jest wykorzystywany?
Czy rzeczywiście możemy ufać szacunkom różnic w różnicach?

regression econometrics difference-in-difference

— Graham Cookson
źródło

Czy ktoś wie, jak oszacować różnicę w regresji różnic w gretlu? Czy muszę pracować z OLS lub danymi panelu?

3

@Pyca To brzmi jak niewłaściwe użycie komentarzy. Powinieneś opublikować nowe pytanie, odnosząc się do tego.

— chl

66

Czym jest estymator
różnic w różnicach Różnica w różnicach (DiD) jest narzędziem do oszacowania efektów leczenia, porównując różnice przed i po leczeniu w wyniku leczenia i grupy kontrolnej. Ogólnie rzecz biorąc, jesteśmy zainteresowani oszacowaniem wpływu leczenia (np. Status związku, leki itp.) Na wynik (np. Płace, zdrowie itp.) Jak w gdzie to indywidualne ustalone efekty (cechy jednostek, które nie zmieniają się w czasie), to efekty ustalone w czasie, to zmienne towarzyszące w czasie, takie jak wiek poszczególnych osób i $D_i$ $Y_i$

Y_{i t} = α_{i} + λ_{t} + ρ D_{i t} + X_{i t}^{'} β + ϵ_{i t}

$Y_{it} = \alpha_i + \lambda_t + \rho D_{it} + X'_{it}\beta + \epsilon_{it}$

α_{i}

$\alpha_i$

λ_{t}

$\lambda_t$

X_{i t}

$X_{it}$

ϵ_{i t}

$\epsilon_{it}$ jest terminem błędu. Osoby i czas są indeksowane przez i , odpowiednio. Jeśli istnieje korelacja między ustalonymi efektami a wówczas oszacowanie tej regresji za pomocą OLS będzie tendencyjne, biorąc pod uwagę, że ustalone efekty nie są kontrolowane. Jest to typowe pominięte zmienne odchylenie .

i

$i$

t

$t$

D_{i t}

$D_{it}$

Aby zobaczyć efekt leczenia, chcielibyśmy poznać różnicę między osobą w świecie, w którym otrzymywała leczenie, a tym, w którym nie. Oczywiście tylko jeden z nich można zaobserwować w praktyce. Dlatego szukamy osób z tymi samymi trendami w zakresie wstępnego leczenia w wyniku. Załóżmy, że mamy dwa okresy i dwie grupy . Następnie, przy założeniu, że trendy w grupach leczenia i kontrolnej byłyby kontynuowane w taki sam sposób jak poprzednio w przypadku braku leczenia, możemy oszacować efekt leczenia jako $t = 1, 2$ $s = A,B$

ρ = (E [Y_{i s t} | s = A, t = 2] - E [Y_{i s t} | s = A, t = 1]) - (E [Y_{i s t} | s = B, t = 2] - E [Y_{i s t} | s = B, t = 1])

$\rho = (E[Y_{ist}|s=A,t=2] - E[Y_{ist}|s=A,t=1]) - (E[Y_{ist}|s=B,t=2] - E[Y_{ist}|s=B,t=1])$

Graficznie wyglądałoby to mniej więcej tak: wprowadź opis zdjęcia tutaj

Możesz po prostu obliczyć te środki ręcznie, tj. Uzyskać średni wynik grupy w obu okresach i przyjąć różnicę. Następnie uzyskaj średni wynik grupy w obu okresach i uwzględnij ich różnicę. Następnie weź różnicę w różnicach i to jest efekt leczenia. Jednak wygodniej jest to zrobić w ramach regresji, ponieważ pozwala to na to $A$ $B$

kontrolować współzmienne
w celu uzyskania standardowych błędów efektu leczenia, aby sprawdzić, czy jest on znaczący

Aby to zrobić, możesz zastosować jedną z dwóch równoważnych strategii. Wygeneruj atrapę grupy kontrolnej która jest równa 1, jeśli dana osoba jest w grupie a w przeciwnym razie 0, wygeneruj atrapę czasu która jest równa 1, jeśli a w przeciwnym razie 0, a następnie regresuj $\text{treat}_i$ $A$ $\text{time}_t$ $t=2$

Y_{i t} = β_{1} + β_{2} ({treat}_{i}) + β_{3} ({time}_{t}) + ρ ({treat}_{i} \cdot {time}_{t}) + ϵ_{i t}

$Y_{it} = \beta_1 + \beta_2 (\text{treat}_i) + \beta_3 (\text{time}_t) + \rho (\text{treat}_i \cdot \text{time}_t) + \epsilon_{it}$

Lub po prostu generujesz manekina który jest równy jeden, jeśli dana osoba jest w grupie leczenia ORAZ okres czasu jest okresem po leczeniu i w przeciwnym razie wynosi zero. Potem $T_{it}$

Y_{i t} = β_{1} γ_{s} + β_{2} λ_{t} + ρ T_{i t} + ϵ_{i t}

$Y_{it} = \beta_1 \gamma_s + \beta_2 \lambda_t + \rho T_{it} + \epsilon_{it}$

gdzie jest znów atrapą dla grupy kontrolnej, a to manekiny czasu. Dwie regresje dają te same wyniki dla dwóch okresów i dwóch grup. Drugie równanie jest jednak bardziej ogólne, ponieważ łatwo rozciąga się na wiele grup i okresów. W obu przypadkach można w ten sposób oszacować parametr różnicy różnic w taki sposób, aby można było uwzględnić zmienne kontrolne (pominąłem te z powyższych równań, aby ich nie zaśmiecać, ale można je po prostu uwzględnić) i uzyskać standardowe błędy do wnioskowania. $\gamma_s$ $\lambda_t$

Dlaczego przydatny jest kalkulator różnic w różnicach?
Jak stwierdzono wcześniej, DiD jest metodą szacowania efektów leczenia za pomocą danych nie eksperymentalnych. To najbardziej przydatna funkcja. DiD jest także wersją estymacji efektów stałych. Podczas gdy model efektów stałych zakłada , DiD przyjmuje podobne założenie, ale na poziomie grupy, . Zatem oczekiwaną wartością wyniku jest tutaj suma efektu grupy i czasu. Jaka jest różnica? Dla skończyłeś nie muszą danych panelowych o ile swoich wielokrotnych przekrojach pochodzą z tej samej jednostki kruszywo . To sprawia, że DiD ma zastosowanie do szerszego zakresu danych niż standardowe modele efektów stałych, które wymagają danych panelowych. $E(Y_{0it}|i,t) = \alpha_i + \lambda_t$ $E(Y_{0it}|s,t) = \gamma_s + \lambda_t$ $s$

Czy możemy ufać różnicy różnic?
Najważniejszym założeniem w DiD jest założenie trendów równoległych (patrz rysunek powyżej). Nigdy nie ufaj badaniu, które nie pokazuje graficznie tych trendów! Dokumenty z lat 90. XX wieku mogły się z tym pogodzić, ale obecnie nasze rozumienie DiD jest znacznie lepsze. Jeśli nie ma przekonującego wykresu pokazującego równoległe trendy w wynikach leczenia wstępnego dla grup leczonych i kontrolnych, należy zachować ostrożność. Jeśli utrzyma się założenie o równoległych trendach i możemy w wiarygodny sposób wykluczyć wszelkie inne zmiany w czasie, które mogą zakłócać leczenie, to DiD jest wiarygodną metodą.

Należy zachować jeszcze jedno ostrzeżenie, jeśli chodzi o traktowanie standardowych błędów. W przypadku wieloletnich danych należy dostosować standardowe błędy autokorelacji. W przeszłości było to zaniedbywane, ale od czasu Bertrand i in. (2004) „Jak bardzo powinniśmy ufać szacunkom różnic w różnicach?” wiemy, że to jest problem. W artykule podają kilka sposobów zaradzenia autokorelacji. Najłatwiej jest skupić się na indywidualnym identyfikatorze panelu, co pozwala na dowolną korelację reszt pomiędzy poszczególnymi szeregami czasowymi. To koryguje zarówno autokorelację, jak i heteroscedastyczność.

Więcej informacji można znaleźć w notatkach z wykładów Waldingera i Pischke .

— Andy
źródło

6

Wikipedia ma przyzwoity wpis na ten temat , ale dlaczego po prostu nie zastosować regresji liniowej pozwalającej na interakcje między twoimi niezależnymi zmiennymi będącymi przedmiotem zainteresowania? Wydaje mi się to bardziej zrozumiałe. Następnie możesz przeczytać o analizie prostych nachyleń (w książce Cohena i innych bezpłatnie w Google Books), jeśli twoje zmienne zainteresowania są ilościowe.

— Stephen Turner
źródło

0

Jest to technika szeroko stosowana w ekonometrii do badania wpływu dowolnego zdarzenia egzogenicznego w szeregu czasowym. Wybierasz dwie oddzielne grupy danych odnoszące się do badanego wydarzenia przed i po nim. Dobrym źródłem informacji, aby dowiedzieć się więcej, jest książka Wprowadzenie do ekonometrii autorstwa Wooldridge.

— Carlos Dutra
źródło

2

Jako zwięzła nietechniczna odpowiedź stanowi ona uzupełnienie odpowiedzi Andy'ego, ale nie wydaje mi się, aby obejmowała ona: „Czy naprawdę możemy ufać szacunkom różnic w różnicach?”

— Silverfish

0

Ostrożny:

Warto zwrócić uwagę na dwa dodatkowe punkty. Po pierwsze, 80 z oryginalnych 92 artykułów DD ma potencjalny problem z pogrupowanymi terminami błędów, ponieważ jednostka obserwacji jest bardziej szczegółowa niż poziom zmienności (punkt omówiony przez Donalda i Langa [2001]). Tylko 36 z tych artykułów rozwiązuje ten problem, grupując błędy standardowe lub agregując dane. Po drugie, stosuje się kilka technik (mniej lub bardziej nieformalnie) do radzenia sobie z możliwą endogenicznością zmiennej interwencyjnej. Na przykład trzy artykuły zawierają opóźnioną zmienną zależną w równaniu (1), siedem zawiera trend czasowy specyficzny dla stanów traktowanych, piętnaście wykreśla niektóre wykresy w celu zbadania dynamiki efektu leczenia, trzy badają, czy występuje wcześniej „efekt” prawo, dwa sprawdzają, czy efekt jest trwały, a jedenaście formalnie próbuje wykonać potrójne różnice (DDD), znajdując inną grupę kontrolną. W Bertrand, Duflo i Mullainathan [2002] pokazujemy, że większość z tych technik nie zmniejsza problemów z szeregową korelacją.

(Bertrand, Duflo i Mullainathan 2004, 253)

— Nowość tutaj
źródło