Mam dużą ankietę, w której zapytano uczniów, między innymi, o poziom wykształcenia ich matki. Niektórzy pominęli to, a niektórzy odpowiedzieli błędnie. Wiem o tym, ponieważ tam była próba częściowa pierwotnych respondentów matki, która została później przesłuchana i zadała to samo pytanie. (Jestem pewien, że z odpowiedziami matek wiąże się również mniejszy błąd).
Moim wyzwaniem jest zdecydowanie, jak najlepiej wykorzystać to drugie, bardziej niezawodne źródło danych. Przynajmniej mogę go użyć do inteligentniejszego przypisywania brakujących danych, niż byłbym w stanie, gdybym mógł polegać tylko na kompletnych przypadkach. Ale jeśli 3/4 dzieci, których dane mogę sprawdzić krzyżowo, które odpowiadają „Moja matka nigdy nie ukończyła szkoły podstawowej” zaprzecza odpowiedzi ich matki, wydaje się, że powinienem użyć imputacji do stworzenia wielu zbiorów danych, aby uchwycić niepewność. [dodał: Powiedziałem 3/4, żeby coś powiedzieć, ale teraz, gdy sprawdziłem dane, równie dobrze mogę powiedzieć, że blisko 40% jest rozbieżnych]
Będę osobiście wykorzystywać edukację matki jako predyktora w modelu mieszanym, ale jeśli ktoś ma coś do powiedzenia na temat innych sytuacji, chciałbym się o nich również dowiedzieć.
Bardzo chciałbym otrzymywać porady w broadstrokes lub w szczegółach. Dziękuję Ci!
Aktualizacja : Na razie pozostawiam pytanie nierozwiązane, choć doceniam odpowiedzi Willa i Conjugate_Prior, mam nadzieję na bardziej szczegółowe i techniczne informacje zwrotne.
Poniższy wykres rozrzutu da ci wyobrażenie o tym, jak te dwie zmienne są powiązane w 10.000 przypadków, w których obie istnieją. Są one zagnieżdżone w ponad 100 szkołach. Korelują one przy 0,78, Odpowiedź Studenta - średnia: 5,12 sd = 2,05, odpowiedź mamy, średnia = 5,02, sd = 1,92 Brak odpowiedzi studenta w około 15% przypadków.