Zastanawiam się, czy ktoś mógłby dać wgląd w to, czy imputacja dla brakujących danych jest lepsza niż po prostu budowanie różnych modeli dla przypadków z brakującymi danymi. Zwłaszcza w przypadku [uogólnionych] modeli liniowych (być może widzę, że w przypadkach nieliniowych rzeczy są różne)
Załóżmy, że mamy podstawowy model liniowy:
Ale nasz zestaw danych zawiera pewne rekordy z brakującym . W zestawie danych prognostycznych, w którym model będzie używany, będą również przypadki braku X 3 . Wydaje się, że istnieją dwa sposoby:
Wiele modeli
Moglibyśmy podzielić dane na i nie- X 3 przypadkach i budować oddzielny model dla siebie. Jeśli przypuszczamy, że X 3 jest ściśle związany z X 2, to brakujący model danych może przeważyć X 2, aby uzyskać najlepszą prognozę dwóch predyktorów. Również jeśli przypadki brakujących danych są nieco inne (z powodu mechanizmu brakujących danych), może uwzględnić tę różnicę. Z drugiej strony oba modele dopasowują się tylko do części danych i nie pomagają sobie nawzajem, więc dopasowanie może być słabe w przypadku ograniczonych zestawów danych.
Przypisanie
EDYTOWAĆ:
Chociaż dotychczasowa odpowiedź Steffana wyjaśnia, że dopasowanie kompletnego modelu przypadku do danych przypisywanych przewyższy dopasowanie do kompletnych danych, i wydaje się oczywiste, że jest odwrotnie, nadal istnieje pewne nieporozumienie dotyczące prognozowania brakujących danych.