Wielokrotna imputacja jest dość prosta, jeśli masz model liniowy a priori , który chcesz oszacować. Jednak rzeczy wydają się nieco trudniejsze, gdy faktycznie chcesz dokonać wyboru modelu (np. Znajdź „najlepszy” zestaw zmiennych predykcyjnych z większego zestawu zmiennych kandydujących - mam na myśli szczególnie LASSO i wielomiany ułamkowe za pomocą R).
Jednym z pomysłów byłoby dopasowanie modelu do oryginalnych danych z brakującymi wartościami, a następnie ponowne oszacowanie tego modelu w zestawach danych MI i połączenie szacunków w normalny sposób. Wydaje się to jednak problematyczne, ponieważ oczekujesz uprzedzeń (a właściwie dlaczego MI?), Co może doprowadzić do wybrania „niewłaściwego” modelu od samego początku.
Innym pomysłem byłoby przejście przez proces wyboru modelu, którego używasz w każdym zestawie danych MI - ale jak byś następnie połączyć wyniki, gdyby zawierały różne zestawy zmiennych?
Jedną z moich myśli było ułożenie zestawu zestawów danych MI i przeanalizowanie ich jako jednego dużego zestawu danych, którego następnie użyłbyś, aby dopasować jeden, „najlepszy” model, i uwzględnić efekt losowy, aby uwzględnić fakt, że używasz powtarzanych miar dla każda obserwacja.
Czy to brzmi rozsądnie? A może niezwykle naiwny? Wszelkie wskazówki dotyczące tego zagadnienia (wybór modelu z wielokrotnym przypisaniem) byłyby bardzo mile widziane.