Co możemy powiedzieć o modelach danych obserwacyjnych przy braku instrumentów?

10

W przeszłości zadawano mi wiele pytań dotyczących opublikowanych artykułów w wielu obszarach, w których regresję (i powiązane modele, takie jak modele panelowe lub GLM) stosuje się na danych obserwacyjnych (tj. Danych niepochodzących z kontrolowanego eksperymentu , w wielu przypadkach - ale nie zawsze - danych obserwowanych w czasie), ale nie podejmuje się próby wprowadzenia zmiennych instrumentalnych.

W odpowiedzi podniosłem szereg uwag (takich jak opisywanie problemów ze stronniczością, gdy mogą brakować ważnych zmiennych), ale ponieważ inni ludzie tutaj będą bez wątpienia znacznie lepiej poinformowani niż ja na ten temat, pomyślałem, że zapytam:

Jakie są główne problemy / konsekwencje próby wyciągnięcia wniosków na temat związków (szczególnie, ale nie wyłącznie, wniosków przyczynowych) w takich sytuacjach?
Czy cokolwiek użytecznego można zrobić z badaniami, które pasują do takich modeli przy braku instrumentów?
Jakie są dobre odniesienia (książki lub artykuły) na temat zagadnień związanych z takim modelowaniem (najlepiej z wyraźną, nietechniczną motywacją konsekwencji, ponieważ zwykle ludzie, którzy pytają, mają różne pochodzenie, niektórzy bez dużej statystyki), do których ludzie mogą odnosić się w krytyce papier? Przydałaby się również dyskusja na temat środków ostrożności / problemów z instrumentami.

(Podstawowe odniesienia do zmiennych instrumentalnych są tutaj , chociaż jeśli masz coś do dodania, to też byłoby pomocne).

Wskazanie dobrych praktycznych przykładów znajdowania i używania instrumentów byłoby dodatkowym atutem, ale nie jest kluczowe dla tego pytania.

[Prawdopodobnie wskażę tutaj inne dobre odpowiedzi, ponieważ takie pytania do mnie przychodzą. Mogę dodać jeden lub dwa przykłady w miarę ich otrzymywania.]

— Glen_b - Przywróć Monikę
źródło

8

Tak więc ogromna większość mojej dziedziny (choć nie ta część, w której pracuję najbardziej) dotyczy właśnie tego - dopasowania modeli typu GLM do danych obserwacyjnych. W większości zmienne instrumentalne są rzadkością, albo z powodu nieznajomości techniki, albo, co ważne, braku dobrego instrumentu. Aby odpowiedzieć na pytania w kolejności:

Głównym problemem jest oczywiście pewien rodzaj mylenia resztkowego przez nieobserwowaną zmienną, która jest związana zarówno z ekspozycją, jak i wynikiem zainteresowania. Prosta wersja językowa mówi, że twoja odpowiedź może być błędna, ale niekoniecznie wiesz, jak i dlaczego. Decyzje podejmowane na podstawie tych informacji (np. Czy zastosować określone leczenie, czy X rzeczy w środowisku jest niebezpieczne itp.) Są decyzjami podejmowanymi na podstawie niewłaściwych informacji.
Twierdzę, że odpowiedź na to pytanie brzmi „tak”, ponieważ w większości badania te starają się znaleźć coś, co niekoniecznie jest dobrym instrumentem lub gdzie randomizacja jest niemożliwa. Więc jeśli chodzi o to, alternatywą jest „Po prostu zgadnij”. Modele te są, jeśli nic innego, formalizacją naszych myśli i solidną próbą zbliżenia się do odpowiedzi, i łatwiej jest się z nimi zmagać.

Na przykład możesz spytać, jak poważne powinno być uprzedzenie, aby jakościowo zmienić odpowiedź (tj. „Tak, X jest dla ciebie zły ...”) i ocenić, czy uważasz, że uzasadnione jest istnienie nieznanego czynnika. tej siły czającej się poza twoimi danymi.

Na przykład, odkrycie, że infekcja HPV jest niezwykle silnie związana z rakiem szyjki macicy, jest ważnym odkryciem, a siła niezmierzonego czynnika, który doprowadziłby do tego, że aż do zera musiałaby być zadziwiająco silna.

Co więcej, należy zauważyć, że instrument tego nie naprawia - działają one tylko w przypadku niektórych niezmierzonych powiązań, a nawet w badaniach randomizowanych występują problemy (różnica w porzucaniu leczenia i kontroli, każda zmiana zachowania po randomizacji, uogólnienie na rzeczywiste docelowa populacja), które również nieco się nabłyszczają.

Rothman, Grenlandia i Lash napisali najnowsze wydanie Modern Epidemiology, które jest w zasadzie książką poświęconą próbom robienia tego w najlepszy możliwy sposób.

— Fomite
źródło

8

W przeciwieństwie do poglądu epidemiologa przedstawionego przez Fomite, zmienne instrumentalne są niezbędnym zestawem narzędzi w ekonomii, który jest nauczany dość wcześnie. Powodem tego jest fakt, że w badaniach ekonomicznych bardzo duży nacisk kładzie się na próbę odpowiedzi na pytania przyczynowe, co sięga tak daleko, że zwykłe korelacje są nawet uważane za nieciekawe. Głównym ograniczeniem jest to, że ekonomia jest dziedziną, w której z natury trudno jest przeprowadzać randomizowane eksperymenty. Jeśli chcę wiedzieć, jaki jest wpływ wczesnej śmierci rodzicielskiej na długoterminowe wyniki edukacyjne dziecka, większość ludzi sprzeciwiłaby się temu za pomocą losowej ścieżki kontrolnej - i słusznie. Ta ulotka z kursu MIT opisuje na stronie 3-5, jakie są inne problemy związane z eksperymentami.

Aby kolejno rozwiązać każdy punkt:

W zależności od pytania, na które należy odpowiedzieć, nie tylko pominięte zmienne mogą unieważnić analizy danych obserwacyjnych bez użycia metod nie eksperymentalnych. Równie ważne mogą być problemy z wyborem, błąd pomiaru, odwrotna przyczynowość lub równoczesność. Głównym problemem jest to, że analityk danych musi zdawać sobie sprawę z ograniczeń tego ustawienia. Odnosi się to głównie do uzasadnienia biznesowego, ponieważ w scenariuszu akademickim byłoby to szybko odkryte. Czasami widzę analityków rynkowych, którzy chcą oszacować elastyczność cen w celu poinformowania klienta (np. O ile zmniejsza się popyt, jeśli podniesiemy ceny o $x\%$ ), więc szacują równanie popytu i całkowicie zapominają lub ignorują fakt, że popyt i podaż są określane jednocześnie, i że jedno wpływa na drugie. Tak więc skutki zależą dużo bardziej od świadomości analityka badacz / danych w odniesieniu do ograniczeń danych, a nie same dane, ale wynikające konsekwencje mogą wahać się od czegoś trywialnego do stopnia, w którym negatywnie wpłynąć natury narodów.
Pokazywanie korelacji może czasem być przydatne, to po prostu zależy od pytania. Kiedy szukasz efektu przyczynowego, wystarczy również, jeśli masz naturalny eksperyment. Dane ze spisu powszechnego w Chile mogą być obserwacyjne, ale jeśli chcesz wiedzieć, jak ostatnie trzęsienie ziemi wpłynęło na osiągnięcia edukacyjne (gdzie trzęsienia ziemi są prawdopodobnie egzogeniczne), to również dane obserwacyjne są w porządku, aby odpowiedzieć na pytanie przyczynowe.
Do pewnego stopnia można również ocenić endogeniczność bez instrumentów (patrz strona 9 w powyższej ulotce, „Szacowanie zakresu odchylenia pominiętych zmiennych”). Dla binarnego nie eksperymentalnego leczenia $D_i$ możesz obliczyć efekt tego leczenia, zrobić to samo dla nieobserwowalnych i zapytać, jak duże musi być przesunięcie nieobserwowalnych, aby wyjaśnić obserwowany efekt leczenia. Jeśli niezauważona zmiana musi być bardzo duża, możemy być nieco bardziej ufni wobec naszych ustaleń. Odniesieniem do tego są Altonji, Elder and Taber (2000) .
Prawdopodobnie każdy ekonomista zastosowany poleciłby Angrist i Pischke (2009) „Głównie nieszkodliwe ekonometria”. Chociaż ta książka jest przeznaczona głównie dla studentów i naukowców, możliwe jest pominięcie jej części matematycznych i uzyskanie intuicji, która jest również dobrze wyjaśniona. Najpierw wprowadzają ideę ustawienia eksperymentalnego, następnie mają tendencję do OLS i jego ograniczeń w odniesieniu do endogeniczności z pominiętych zmiennych, równoczesności, selekcji itp., A następnie intensywnie omawiają zmienne instrumentalne z dobrym udziałem przykładów z literatury stosowanej. Omawiają również problemy ze zmiennymi instrumentalnymi, takimi jak słabe instrumenty lub używanie zbyt wielu z nich. Angrist and Krueger (2001) zapewniają również nietechniczny przegląd zmiennych instrumentalnych i potencjalnych pułapek, a także mają tabelę podsumowującą kilka badań i ich instrumentów.

Prawdopodobnie wszystko to było o wiele dłużej niż typowa odpowiedź tutaj powinna być, ale pytanie jest bardzo szerokie. Chciałbym tylko podkreślić, że zmienne instrumentalne (często trudne do znalezienia) nie są jedyną kulą w naszej kieszeni. Istnieją inne nie eksperymentalne metody odkrywania skutków przyczynowych na podstawie danych obserwacyjnych, takie jak różnice w różnicach, projekty nieciągłości regresji, dopasowanie lub regresja efektów stałych (jeśli nasze czynniki zakłócające są niezmienne w czasie). Wszystkie są omówione w Angrist i Pischke (2009) oraz w ulotce dołączonej na początku.

— Andy
źródło