Mam powtórzone pomiary w punktach 2 razy w próbie osób. W chwili 1 jest 18 tys. Osób, a w drugiej 2 13 tys. (5000 osób straciło na obserwacji).
Chcę cofnąć wynik Y zmierzony w czasie 2 (a wyniku nie można zmierzyć w czasie 1) na zestawie predyktorów X zmierzonych w czasie 1. Wszystkie zmienne mają pewne brakujące dane. Większość z nich wydaje się stosunkowo losowa lub brak wydaje się dobrze opisany przez obserwowane dane. Jednak zdecydowana większość braków w wyniku Y wynika ze strat, które należy podjąć. Użyję wielokrotnego imputacji (R :: myszy) i użyję pełnego zestawu danych do przypisania wartości X, ale otrzymałem 2 sprzeczne porady dotyczące przypisania Y:
1) Impuls Y z X i V (V = przydatne zmienne pomocnicze) w pełnej próbce 18k.
2) Nie przypisuj Y osobom, które straciły na obserwacji (a zatem nie upuść ich z żadnego późniejszego modelowania regresji).
To pierwsze ma sens, ponieważ informacja jest informacją, więc dlaczego nie wykorzystać wszystkiego; Ale to drugie ma sens również w bardziej intuicyjny sposób - po prostu wydaje się niewłaściwe przypisywanie wyniku 5000 osobom w oparciu o Y ~ X + V, a następnie odwrócenie się i oszacowanie Y ~ X.
Które jest (więcej) poprawne?
To poprzednie pytanie jest przydatne, ale nie odnosi się bezpośrednio do braków spowodowanych utratą działań następczych (choć być może odpowiedź jest taka sama; nie wiem).