kiedy uruchomiłem kilka przykładów, wartości p dla rho i dla testu t korelacji rang Pearsona zawsze pasowały, z wyjątkiem ostatnich kilku cyfr
Cóż, wtedy podawałeś niewłaściwe przykłady!
a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')
Pearson's product-moment correlation
data: a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.08621009 0.90762506
sample estimates:
cor
0.6130088
cor.test(a,b,method='spearman')
Spearman's rank correlation rho
data: a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
1
Wektory a
i b
mają dobre, ale dalekie od doskonałości liniowego (Pearson) korelacji. Mają jednak idealną korelację rang. Zobacz - do Spearmanaρ, w tym przypadku nie ma znaczenia, czy ostatnia cyfra b
to 8,1, 9, 90 lub 9000 (spróbuj!), ma znaczenie tylko, jeśli jest większa niż 8 . To właśnie robi różnicę w korelacji rang.
I odwrotnie, podczas gdy a
i b
mają doskonałą korelację rang, ich współczynnik korelacji Pearsona jest mniejszy niż 1. To pokazuje, że korelacja Pearsona nie odzwierciedla rang.
Korelacja Pearsona odzwierciedla funkcję liniową, korelacja rang jest po prostu funkcją monotoniczną. W przypadku normalnych danych oba będą bardzo do siebie podobne i podejrzewam, że właśnie dlatego twoje dane nie pokazują dużych różnic między Spearmanem a Pearsonem.
Dla praktycznego przykładu rozważ następujące kwestie; chcesz sprawdzić, czy wyżsi ludzie ważą więcej. Tak, to głupie pytanie ... ale załóżmy, że o to ci zależy. Teraz masa nie skaluje się liniowo wraz z ciężarem, ponieważ wysocy ludzie są również szersi niż mali ludzie; więc ciężar nie jest liniową funkcją wzrostu. Ktoś, kto jest o 10% wyższy od ciebie, jest (średnio) o ponad 10% cięższy. Dlatego indeks ciała / masy wykorzystuje kostkę w mianowniku.
W związku z tym można założyć korelację liniową, aby niedokładnie odzwierciedlić relację wzrostu do masy. Natomiast korelacja rang jest w tym przypadku niewrażliwa na irytujące prawa fizyki i biologii; nie odzwierciedla to, czy ludzie rosną liniowo wraz ze wzrostem, po prostu odzwierciedla to, czy ludzie wyżsi (wyżsi rangi w jednej skali) są ciężsi (wyżsi rangi w drugiej skali).
Bardziej typowym przykładem mogą być rankingi kwestionariuszy podobne do Likerta, na przykład osoby oceniające coś jako „doskonałe / dobre / przyzwoite / mierne / złe / okropne”. „doskonały” jest tak samo daleki od „przyzwoitego”, jak „przyzwoity” jest od „złego” w skali , ale czy naprawdę możemy powiedzieć, że odległość między nimi jest taka sama? Korelacja liniowa niekoniecznie jest odpowiednia. Korelacja rang jest bardziej naturalna.
Aby bardziej bezpośrednio odpowiedzieć na twoje pytanie: nie, wartości p dla korelacji Pearsona i Spearmana nie mogą być obliczane inaczej . Wiele różni się w obu przypadkach, zarówno koncepcyjnie, jak i liczbowo, ale jeśli statystyka testowa jest równoważna, wartość p będzie równoważna.
Na pytanie o założeniu normalności w korelacji Pearsona, zobacz to .
Mówiąc bardziej ogólnie, inne osoby opracowały znacznie lepiej niż mogłem na temat korelacji parametrycznych vs. nieparametrycznych (patrz także tutaj ) i co to oznacza w odniesieniu do założeń dystrybucyjnych.