Problem z korelacjami na kompletnych obserwacjach parami
W opisanym przypadku głównym problemem jest interpretacja. Ponieważ używasz pełnych obserwacji parami, w rzeczywistości analizujesz nieco różne zestawy danych dla każdej z korelacji, w zależności od brakujących obserwacji.
Rozważ następujący przykład:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Trzy zmienne w zbiorze danych a, bi ckażdy ma kilka brakujących wartości. Jeśli obliczysz tutaj korelacje dla par zmiennych, będziesz mógł używać tylko przypadków, w których nie ma brakujących wartości dla obu zmiennych. W tym przypadku oznacza to, że będziesz analizował tylko 3 ostatnie przypadki pod kątem korelacji między ai b, tylko pierwsze trzy przypadki pod kątem korelacji między bi citp.
Fakt, że analizujesz zupełnie różne przypadki podczas obliczania każdej korelacji, oznacza, że wynikowy wzór korelacji może wyglądać bezsensownie. Widzieć:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
To wygląda logicznej sprzeczności --- ai bsą silnie dodatnio skorelowane, a bi csą silnie dodatnio skorelowane, więc można się spodziewać a, a cbyć dodatnio skorelowane, a także, ale jest faktycznie silny związek w kierunku przeciwnym. Możesz zobaczyć, dlaczego wielu analityków tego nie lubi.
Edytuj, aby uwzględnić przydatne wyjaśnienia z Whuber:
Zauważ, że część argumentu zależy od tego, co może oznaczać „silna” korelacja. Jest całkiem możliwe, aa btakże bi cbyć „silnie pozytywnie skorelowane”, podczas gdy istnieje „silne powiązanie w przeciwnym kierunku” pomiędzy ai c, ale nie tak skrajnie jak w tym przykładzie. Sedno sprawy polega na tym, że szacowana macierz korelacji (lub kowariancji) może nie być jednoznacznie określona: w ten sposób należy kwantyfikować „silny”.
Problem z rodzajem zaginięcia
Być może myślisz sobie: „Cóż, czy nie jest w porządku po prostu założyć, że podzbiór przypadków, które mam dostępne dla każdej korelacji, jest mniej więcej taki sam, jak w przypadku posiadania pełnych danych?” I tak, to prawda - nie ma nic zasadniczo złego w obliczaniu korelacji na podzbiorze danych (chociaż tracisz precyzję i moc, oczywiście z powodu mniejszej wielkości próbki), o ile dostępne dane są losowe próbka wszystkich danych, które byłyby tam, gdybyś nie zaginął.
Kiedy brak jest czysto przypadkowy, nazywa się to MCAR (brak całkowicie losowego). W takim przypadku analiza podzbioru danych, w których nie ma braków, nie będzie systematycznie obciążać wyników, a uzyskanie takiego rodzaju szalonych wzorców korelacji, które pokazałem w powyższym przykładzie, byłoby mało prawdopodobne (ale nie niemożliwe).
Kiedy twoje zaginięcie jest w jakiś sposób systematyczne (często w skrócie MAR lub NI, określające dwa różne rodzaje systematycznego zaginięcia), masz o wiele poważniejsze problemy, zarówno pod względem potencjalnego wprowadzenia błędu w obliczeniach, jak i zdolności do uogólnienia swojej wyniki dla zainteresowanej populacji (ponieważ analizowana próbka nie jest losową próbką z populacji, nawet jeśli byłby to pełny zestaw danych).
Istnieje wiele wspaniałych dostępnych zasobów, aby dowiedzieć się o brakujące dane i jak sobie z tym poradzić, ale moja rada jest taka, Rubin:
klasyczny ,
a nowsza artykuł