Współczynnik Pearsona między dwiema zmiennymi jest dość wysoki (r = 0,65). Ale kiedy oceniam wartości zmiennych i przeprowadzam korelację Spearmana, wartość współczynnika jest znacznie niższa (r = 0,30).
- Jaka jest tego interpretacja?
Współczynnik Pearsona między dwiema zmiennymi jest dość wysoki (r = 0,65). Ale kiedy oceniam wartości zmiennych i przeprowadzam korelację Spearmana, wartość współczynnika jest znacznie niższa (r = 0,30).
Odpowiedzi:
Jeśli twoje dane są zwykle dystrybuowane lub równomiernie dystrybuowane, uważam, że korelacja Spearmana i Pearsona powinna być dość podobna.
Jeśli dają one bardzo różne wyniki, jak w twoim przypadku (.65 w porównaniu z .30), domyślam się, że wypaczyłeś dane lub wartości odstające i że wartości odstające powodują, że korelacja Pearsona jest większa niż korelacja Spearmana. To znaczy, bardzo wysokie wartości na X mogą współistnieć z bardzo wysokimi wartościami na Y.
Zobacz także poprzednie pytania dotyczące różnic między korelacją Spearmana i Pearsona:
Poniżej przedstawiono prostą symulację tego, jak może to nastąpić. Zauważ, że poniższy przypadek dotyczy pojedynczej wartości odstającej, ale możesz uzyskać podobne efekty z wieloma wartościami odstającymi lub przekrzywionymi danymi.
# Set Seed of random number generator
set.seed(4444)
# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1
# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)
# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")
plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")
# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)
Co daje ten wynik
[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44
Analiza korelacji pokazuje, że bez wartości odstających Spearman i Pearson są dość podobne, a przy skrajnej wartości odstającej korelacja jest zupełnie inna.
Poniższy wykres pokazuje, jak traktowanie danych jako rang eliminuje ekstremalny wpływ wartości odstającej, przez co Spearman jest podobny zarówno z wartością odstającą, jak i bez niej, podczas gdy Pearson jest zupełnie inny, gdy dodaje się wartość odstającą. To podkreśla, dlaczego Spearman często nazywany jest solidnym.