Problem z korelacjami na kompletnych obserwacjach parami
W opisanym przypadku głównym problemem jest interpretacja. Ponieważ używasz pełnych obserwacji parami, w rzeczywistości analizujesz nieco różne zestawy danych dla każdej z korelacji, w zależności od brakujących obserwacji.
Rozważ następujący przykład:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Trzy zmienne w zbiorze danych a
, b
i c
każdy ma kilka brakujących wartości. Jeśli obliczysz tutaj korelacje dla par zmiennych, będziesz mógł używać tylko przypadków, w których nie ma brakujących wartości dla obu zmiennych. W tym przypadku oznacza to, że będziesz analizował tylko 3 ostatnie przypadki pod kątem korelacji między a
i b
, tylko pierwsze trzy przypadki pod kątem korelacji między b
i c
itp.
Fakt, że analizujesz zupełnie różne przypadki podczas obliczania każdej korelacji, oznacza, że wynikowy wzór korelacji może wyglądać bezsensownie. Widzieć:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
To wygląda logicznej sprzeczności --- a
i b
są silnie dodatnio skorelowane, a b
i c
są silnie dodatnio skorelowane, więc można się spodziewać a
, a c
być dodatnio skorelowane, a także, ale jest faktycznie silny związek w kierunku przeciwnym. Możesz zobaczyć, dlaczego wielu analityków tego nie lubi.
Edytuj, aby uwzględnić przydatne wyjaśnienia z Whuber:
Zauważ, że część argumentu zależy od tego, co może oznaczać „silna” korelacja. Jest całkiem możliwe, a
a b
także b
i c
być „silnie pozytywnie skorelowane”, podczas gdy istnieje „silne powiązanie w przeciwnym kierunku” pomiędzy a
i c
, ale nie tak skrajnie jak w tym przykładzie. Sedno sprawy polega na tym, że szacowana macierz korelacji (lub kowariancji) może nie być jednoznacznie określona: w ten sposób należy kwantyfikować „silny”.
Problem z rodzajem zaginięcia
Być może myślisz sobie: „Cóż, czy nie jest w porządku po prostu założyć, że podzbiór przypadków, które mam dostępne dla każdej korelacji, jest mniej więcej taki sam, jak w przypadku posiadania pełnych danych?” I tak, to prawda - nie ma nic zasadniczo złego w obliczaniu korelacji na podzbiorze danych (chociaż tracisz precyzję i moc, oczywiście z powodu mniejszej wielkości próbki), o ile dostępne dane są losowe próbka wszystkich danych, które byłyby tam, gdybyś nie zaginął.
Kiedy brak jest czysto przypadkowy, nazywa się to MCAR (brak całkowicie losowego). W takim przypadku analiza podzbioru danych, w których nie ma braków, nie będzie systematycznie obciążać wyników, a uzyskanie takiego rodzaju szalonych wzorców korelacji, które pokazałem w powyższym przykładzie, byłoby mało prawdopodobne (ale nie niemożliwe).
Kiedy twoje zaginięcie jest w jakiś sposób systematyczne (często w skrócie MAR lub NI, określające dwa różne rodzaje systematycznego zaginięcia), masz o wiele poważniejsze problemy, zarówno pod względem potencjalnego wprowadzenia błędu w obliczeniach, jak i zdolności do uogólnienia swojej wyniki dla zainteresowanej populacji (ponieważ analizowana próbka nie jest losową próbką z populacji, nawet jeśli byłby to pełny zestaw danych).
Istnieje wiele wspaniałych dostępnych zasobów, aby dowiedzieć się o brakujące dane i jak sobie z tym poradzić, ale moja rada jest taka, Rubin:
klasyczny ,
a nowsza artykuł