Mam duży zestaw wektorów cech, których użyję do zaatakowania problemu z klasyfikacją binarną (za pomocą scikit learn w Pythonie). Zanim zacznę myśleć o imputacji, jestem zainteresowany próbą ustalenia na podstawie pozostałych części danych, czy brakujące dane są „losowo brakujące”, czy nie losowe.
Jak rozsądnie podejść do tego pytania?
Okazuje się, że lepszym pytaniem jest pytanie, czy dane „całkowicie przypadkowo brakuje”, czy nie. Jaki jest rozsądny sposób to zrobić?