Odróżnianie brakujące losowo (MAR) od całkowicie brakującego losowo (MCAR)


13

Te dwa razy wyjaśniłem wiele razy. Nadal gotują mój mózg. Brakujące w losowo ma sens bycia, a brakujące całkowicie w losowym ma sens ... to brakujące w losowy sposób nie ma aż tak wielkiego znaczenia.

Co powoduje powstanie danych, które byłyby MAR, ale nie MCAR?


Czy na twoje pytanie odpowiedzą inne pytanie? Czy istnieje dobry powód, dla którego nazwa „Missing at Random”? i wymienione zasoby?
Andy W

3
@AndyW Szczerze mówiąc, nie. Interesująca dyskusja na temat tego, dlaczego nazwa jest wadliwa, oraz artykuł czający się za ścianą subskrypcji.
Fomite

Odpowiedzi:


18

Brakujące losowo (MAR) oznacza, że ​​brak można wyjaśnić zmiennymi, na temat których masz pełne informacje. Nie jest to możliwe do przetestowania założenie, ale są przypadki, w których jest to uzasadnione vs.

Weźmy na przykład ankiety polityczne. Wiele osób odmawia odpowiedzi. Jeśli założysz, że powody odmowy odpowiedzi są całkowicie oparte na danych demograficznych, a jeśli masz te dane demograficzne na każdej osobie, to dane to MAR. Wiadomo, że niektóre z powodów, dla których ludzie odmawiają odpowiedzi, mogą wynikać z danych demograficznych (na przykład osoby o niskich i wysokich dochodach mają mniejsze szanse na odpowiedź niż osoby w środku), ale tak naprawdę nie ma sposobu, aby się dowiedzieć, czy to jest pełne wyjaśnienie.

Pytanie brzmi: „czy jest wystarczająco pełne?”. Często metody takie jak wielokrotna imputacja działają lepiej niż inne metody, o ile danych nie brakuje bardzo przypadkowo.


5
The Journal of Statistical Software (online) miał niedawnej publikacji na temat wielokrotnego przypisania, a ja patrząc na Big Three wielu pakietów imputacja dla R: Amelia, mi, i mice. Podobieństwa i różnice są fascynujące. ( Amelia„S over imputejest dość interesująca.)
Wayne

1
Oto link do wydania JSS: jstatsoft.org/v45
gung - Przywróć Monikę

12

Nie jestem pewien, czy jest to poprawne, ale starałem się to zrozumieć tak, jakby istniała macierz możliwości 2x2, która nie jest całkiem symetryczna. Coś jak:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

Oznacza to, że jeśli istnieje wzorzec braku zmiennej, a dane, które mamy, nie mogą tego wyjaśnić, mamy MNAR, ale jeśli dane, które mamy (tj. Inne zmienne w naszym zestawie danych) mogą to wyjaśnić, mamy MAR. Jeśli brakuje brakującego wzoru, to jest to MCAR.

Mogę być daleko stąd. Ponadto pozostawia to otwartą definicję „Wzorca” i „Dane wyjaśnia”. Myślę, że „Dane objaśniają”, co oznacza, że ​​wyjaśniają je inne zmienne w twoim zestawie danych, ale uważam, że twoja procedura może to również wyjaśnić (np. Dobrym przykładem w innym wątku jest, jeśli masz trzy zmienne pomiarowe, które mierzą to samo, a twoje procedura polega na tym, że pierwsze dwa pomiary nie zgadzają się zbyt mocno, wykonując trzeci pomiar).

Czy to wystarcza do intuicji, CV?


Bardzo pomocna wizualizacja. Dziękuję Ci!
skeller88

-1

Próbowałem też zrozumieć różnicę, więc może niektóre przykłady mogłyby pomóc.

MCAR : Brakuje całkowicie losowo , to świetnie. Oznacza to, że brak odpowiedzi jest całkowicie losowy. Twoja ankieta nie jest stronnicza.

MAR : Brakuje przypadkowej , gorszej sytuacji. Wyobraź sobie, że prosisz o IQ i masz znacznie więcej kobiet niż mężczyzn. Na szczęście dla ciebie, IQ nie jest związany z płcią, więc możesz kontrolować płeć (zastosować ważenie), aby zmniejszyć stronniczość.

MNAR : Nie brakuje losowo , źle. Zastanów się nad ankietą dotyczącą poziomu dochodów. I znowu, masz więcej kobiet niż mężczyzn. W tym przypadku jest to problem, ponieważ poziom dochodów jest związany z płcią. Dlatego twoje wyniki będą stronnicze. Niełatwo się go pozbyć.

Widzisz, jest to „trójkątny” związek między zmienną docelową (Y, np. Dochód), zmienną pomocniczą (X, np. Wiek) i zachowaniem odpowiedzi (R, grupa odpowiedzi). Jeśli X jest związany tylko z R, good-ish (MAR). Jeśli istnieje zależność między X i R oraz X i Y, to jest zły (MNAR).

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.