Mam zestaw danych z 8000 klastrami i 4 milionami obserwacji. Niestety moje oprogramowanie statystyczne, Stata, działa dość wolno, gdy używa swojej funkcji danych panelowych do regresji logistycznej: xtlogit
nawet z podpróbką 10%.
Jednak w przypadku korzystania z logit
funkcji niepanelowej wyniki pojawiają się znacznie wcześniej. Dlatego mogę korzystać ze logit
zmodyfikowanych danych uwzględniających ustalone efekty.
Uważam, że ta procedura jest ukuta jako „procedura stałych efektów Mundlaka” (Mundlak, Y. 1978. Łączenie szeregów czasowych i danych przekrojowych. Econometrica, 46 (1), 69-85.)
Intuicyjne wyjaśnienie tej procedury znalazłem w pracy Antonakisa, J., Bendahana, S., Jacquarta, P. i Lalive, R. (2010). Co do roszczeń przyczynowych: przegląd i zalecenia. The Leadership Quarterly, 21 (6). 1086–1120. Cytuję:
Jednym ze sposobów obejścia problemu pominiętych efektów stałych i włączenia zmiennych poziomu 2 jest uwzględnienie średnich skupień wszystkich zmiennych towarzyszących poziomu 1 w modelu szacunkowym (Mundlak, 1978). Środki klastra mogą być uwzględnione jako regresory lub odjęte (tj. Centrowanie średniej klastra) od współzmiennej poziomu 1. Średnie skupienia są niezmienne w obrębie skupiska (i różnią się między klastrami) i pozwalają na spójne oszacowanie parametrów poziomu 1 tak, jakby uwzględniono efekty stałe (patrz Rabe-Hesketh i Skrondal, 2008).
Dlatego centrowanie średnich skupień wydaje się idealne i praktyczne do rozwiązania mojego problemu obliczeniowego. Jednak te dokumenty wydają się być ukierunkowane na regresję liniową (OLS).
Czy ta metoda centrowania średniego klastra ma również zastosowanie do „replikacji” binarnej regresji logistycznej o ustalonych efektach?
Bardziej techniczne pytanie, które powinno dać tę samą odpowiedź, brzmiałoby: czy xtlogit depvar indepvars, fe
z zestawem danych A jest równy logit depvar indepvars
z zestawem danych B, gdy zestaw danych B jest wersją zestawu danych A zorientowaną na klastrze?
Dodatkową trudnością, jaką znalazłem w tym skupieniu, jest sposób radzenia sobie z manekinami. Ponieważ manekiny mają wartość 0 lub 1, czy są identyczne w regresji efektów losowych i stałych? Czy nie powinny być „wyśrodkowane”?