Czy w badaniu podłużnym powinienem przypisać wynik Y, mierzony w czasie 2, dla osób, które zaginęły w obserwacji?

10

Mam powtórzone pomiary w punktach 2 razy w próbie osób. W chwili 1 jest 18 tys. Osób, a w drugiej 2 13 tys. (5000 osób straciło na obserwacji).

Chcę cofnąć wynik Y zmierzony w czasie 2 (a wyniku nie można zmierzyć w czasie 1) na zestawie predyktorów X zmierzonych w czasie 1. Wszystkie zmienne mają pewne brakujące dane. Większość z nich wydaje się stosunkowo losowa lub brak wydaje się dobrze opisany przez obserwowane dane. Jednak zdecydowana większość braków w wyniku Y wynika ze strat, które należy podjąć. Użyję wielokrotnego imputacji (R :: myszy) i użyję pełnego zestawu danych do przypisania wartości X, ale otrzymałem 2 sprzeczne porady dotyczące przypisania Y:

1) Impuls Y z X i V (V = przydatne zmienne pomocnicze) w pełnej próbce 18k.

2) Nie przypisuj Y osobom, które straciły na obserwacji (a zatem nie upuść ich z żadnego późniejszego modelowania regresji).

To pierwsze ma sens, ponieważ informacja jest informacją, więc dlaczego nie wykorzystać wszystkiego; Ale to drugie ma sens również w bardziej intuicyjny sposób - po prostu wydaje się niewłaściwe przypisywanie wyniku 5000 osobom w oparciu o Y ~ X + V, a następnie odwrócenie się i oszacowanie Y ~ X.

Które jest (więcej) poprawne?

To poprzednie pytanie jest przydatne, ale nie odnosi się bezpośrednio do braków spowodowanych utratą działań następczych (choć być może odpowiedź jest taka sama; nie wiem).

Wielokrotna imputacja dla zmiennych wyniku

panel-data multiple-imputation

— DL Dahly
źródło

Wydaje mi się to sprzeczne - czy możesz to wyjaśnić: „Większość z nich wydaje się stosunkowo losowa lub brak jest dobrze opisany przez obserwowane dane”.

— rolando2

1

Wiele imputacji i większość innych procedur imputacji wymaga losowego braku danych (MAR). W swoim badaniu konieczne byłoby zrozumienie mechanizmu ścierania. Podejrzewam jednak, że w dalszych badaniach prawdopodobnie brakujące wartości nie są MAR ani MCAR.

— StatsStudent

2

Myślę, że to przypadek oprzyrządowania. Chcesz brakującego X, a nie brakującego Y.

Y~X

Ale X często brakuje lub jest źle oceniany.

X~Z and Z does not impact Y- except through X.

Następnie możesz uruchomić:

 X~Z
 Y~Predicted(X)

I wymagają korekty standardowych błędów.

Możesz także przyjrzeć się 2-etapowej procedurze Heckmanna, jeśli masz dużo ścierania próbki. http://en.wikipedia.org/wiki/Heckman_correction

— Regress Forward
źródło

2

Twierdziłbym, że żadne z nich nie jest najbardziej odpowiednie.

$X$ $Y$

Usunięcie wszystkich brakujących danych z danych powoduje, że parametry stają się stronnicze (jeśli dane nie są MCAR, patrz wyżej) i znacznie zmniejsza dokładność szacunków. Jest to analiza „pełnego przypadku” i jest niewskazana.

$Y$

— Matt Brems
źródło