Korelacja Pearsona lub Spearmana z danymi niestandardowymi


113

Często dostaję to pytanie w mojej pracy konsultingowej, że myślałem, że opublikuję je tutaj. Mam odpowiedź, która jest zamieszczona poniżej, ale chciałem usłyszeć, co mają do powiedzenia inni.

Pytanie: Jeśli masz dwie zmienne, które nie są normalnie rozmieszczone, czy powinieneś użyć rho Spearmana do korelacji?


1
Dlaczego nie obliczyć i zgłosić obu (r Pearsona i ρ Spearmana)? Ich różnica (lub jej brak) zapewni dodatkowe informacje.

Pytanie porównujące założenia dystrybucyjne przyjęte podczas testowania istotności prostego współczynnika regresji beta i podczas testowania współczynnika korelacji Pearsona (liczbowo równy beta) stats.stackexchange.com/q/181043/3277 .
ttnphns

Odpowiedzi:


77

Korelacja Pearsona jest miarą liniowej zależności między dwiema ciągłymi zmiennymi losowymi. Nie zakłada normalności, chociaż zakłada skończone wariancje i skończoną kowariancję. Gdy zmienne są dwuwymiarowe normalne, korelacja Pearsona zapewnia pełny opis powiązania.

Korelacja Spearmana dotyczy rang, a zatem stanowi miarę monotonicznej zależności między dwiema ciągłymi zmiennymi losowymi. Jest także przydatny w przypadku danych porządkowych i jest odporny na wartości odstające (w przeciwieństwie do korelacji Pearsona).

Rozkład obu współczynników korelacji będzie zależeć od rozkładu leżącego u podstaw, chociaż oba są asymptotycznie normalne z powodu centralnego twierdzenia granicznego.


12
Pearsona nie ponosi normalności, ale to tylko wyczerpująca miarą stowarzyszenia, jeżeli łączny rozkład normalny jest wielowymiarowa. Biorąc pod uwagę zamieszanie, jakie wywołuje to rozróżnienie, możesz chcieć dodać je do swojej odpowiedzi. ρ
user603,

3
Czy istnieje źródło, które można zacytować w celu poparcia powyższego stwierdzenia (osoba r nie zakłada normalności)? W tej chwili mamy ten sam argument w naszym dziale.

5
„Gdy zmienne są dwuwymiarowe normalne, korelacja Pearsona zapewnia pełny opis powiązania”. A kiedy zmienne NIE są dwuwymiarowe normalne, jak przydatna jest korelacja Pearsona?
landroni

2
Ta odpowiedź wydaje się raczej pośrednia. „Kiedy zmienne są dwuwymiarowe normalne ...” A kiedy nie? Takie wyjaśnienie jest powodem, dla którego nigdy nie otrzymuję statystyk. „Rob, jak ci się podoba moja nowa sukienka?” „Ciemny kolor podkreśla twoją jasną skórę”. „Jasne, Rob, ale czy podoba jak emphasisez moją skórę?” „Jasna skóra jest uważana za piękną w wielu kulturach”. „Wiem, Roba, ale ty to podoba?” „Myślę, że sukienka jest piękna”. „Też tak myślę, Rob, ale czy to dla mnie piękne ?” „Zawsze wyglądasz dla mnie pięknie, kochanie”. westchnienie

1
Jeśli przeczytasz dwa poprzednie zdania, znajdziesz odpowiedź.
Rob Hyndman,

49

Nie zapomnij o tau Kendalla ! Roger Newson opowiadał się za wyższością τ a Kendalla nad korelacją Spearmana r S jako miarą korelacji opartą na rangach w artykule, którego pełny tekst jest teraz bezpłatnie dostępny online:

Newson R. Parametry kryjące się za „nieparametrycznymi” statystykami: tau Kendalla, D Somersa i różnice mediany . Stata Journal 2002; 2 (1): 45–64.

On odwołuje (na P47) Kendall & Gibbons (1990) jako twierdząc, że”... przedziały ufności dla Spearmana r S są mniej pewne i mniej interpretacji niż przedziały ufności dla Kendall τ -parameters, ale próbka Spearmana R S jest o wiele łatwiej obliczone bez komputera ”(co oczywiście nie ma już większego znaczenia). Niestety nie mam łatwego dostępu do kopii ich książki:

Kendall, MG i JD Gibbons. 1990. Metody korelacji rang . Wydanie 5 Londyn: Griffin.


2
Jestem także wielkim fanem tau Kendalla. Pearson jest zbyt wrażliwy na wpływowe punkty / wartości odstające dla mojego gustu i chociaż Spearman nie cierpi z powodu tego problemu, osobiście uważam, że Kendall jest łatwiejszy do zrozumienia, interpretacji i wyjaśnienia niż Spearman. Oczywiście twój przebieg może się różnić.
Stephan Kolassa

Przypominam sobie z doświadczenia, że ​​tau Kendalla wciąż działa o wiele wolniej (w R) niż tau Spearmana. Może to być ważne, jeśli Twój zestaw danych jest duży.
słowa

35

Z perspektywy stosowanej bardziej martwię się wyborem podejścia, które podsumowuje związek między dwiema zmiennymi w sposób zgodny z moim pytaniem badawczym. Myślę, że określenie metody uzyskiwania dokładnych błędów standardowych i wartości p to pytanie, które powinno zająć drugie miejsce. Nawet jeśli zdecydujesz się nie polegać na asymptotyce, zawsze istnieje możliwość załadowania lub zmiany założeń dystrybucyjnych.

Zasadniczo wolę korelację Pearsona, ponieważ (a) ogólnie bardziej odpowiada ona moim teoretycznym zainteresowaniom; (b) umożliwia bardziej bezpośrednią porównywalność ustaleń między badaniami, ponieważ większość badań w mojej dziedzinie wykazuje korelację Pearsona; oraz (c) w wielu ustawieniach istnieje minimalna różnica między współczynnikami korelacji Pearsona i Spearmana.

Są jednak sytuacje, w których uważam, że korelacja Pearsona z surowymi zmiennymi jest myląca.

  • Wartości odstające: wartości odstające mogą mieć duży wpływ na korelacje Pearsona. Wiele wartości odstających w zastosowanych ustawieniach odzwierciedla błędy pomiaru lub inne czynniki, do których model nie jest przeznaczony do uogólnienia. Jedną z opcji jest usunięcie takich wartości odstających. Jednowymiarowe wartości odstające nie istnieją w przypadku rho Spearmana, ponieważ wszystko jest przekształcane w szeregi. Zatem Spearman jest bardziej wytrzymały.
  • Zmienne mocno przekrzywione : Podczas korelowania zmiennych skośnych, szczególnie zmiennych mocno skośnych, log lub inna transformacja często sprawia, że ​​podstawowa zależność między tymi dwiema zmiennymi jest bardziej wyraźna (np. Wielkość mózgu na podstawie masy ciała zwierząt). W takich ustawieniach może się zdarzyć, że surowa metryka i tak nie jest najbardziej znaczącą metryką. Rho Spearmana ma podobny efekt do transformacji, przekształcając obie zmienne w szeregi. Z tej perspektywy rho Spearmana można postrzegać jako podejście szybkie i brudne (lub bardziej pozytywnie, jest mniej subiektywne), w którym nie trzeba myśleć o optymalnych transformacjach.

W obu powyższych przypadkach radziłbym badaczom albo rozważyć strategie korekty (np. Transformacje, usunięcie / dopasowanie wartości odstających) przed zastosowaniem korelacji Pearsona lub użyć rho Spearmana.


Problem z transformacją polega na tym, że generalnie przekształca ona także błędy związane z każdym punktem, a tym samym wagę. I to nie rozwiązuje problemu wartości odstającej.
skan

11

Zaktualizowano

Pytanie wymaga wyboru między metodą Pearsona a Spearmana, gdy kwestionowana jest normalność . Ograniczając się do tej obawy, uważam, że następujący artykuł powinien informować o każdej decyzji:

Jest całkiem miły i zapewnia przegląd znacznej literatury obejmującej dziesięciolecia na ten temat - zaczynając od „okaleczonych i zniekształconych powierzchni” Pearsona i solidności dystrybucji . Przynajmniej część sprzecznej natury „faktów” polega na tym, że znaczna część tej pracy została wykonana przed nadejściem mocy obliczeniowej - co skomplikowało rzeczy, ponieważ trzeba wziąć pod uwagę rodzaj nienormalności i trudno ją zbadać bez symulacji.r

Analiza Kowalskiego stwierdza, że ​​rozkład nie jest solidny w obecności nienormalności i zaleca alternatywne procedury. Cały artykuł jest dość pouczający i zalecany do przeczytania, ale przejdź do bardzo krótkiego podsumowania na końcu artykułu.r

Jeśli zostanie poproszony o wybranie jednego ze Spearmana i Pearsona w przypadku naruszenia normalności, warto zalecić alternatywę bez dystrybucji, tj. Metodę Spearmana.


Wcześniej ..

Korelacja Spearmana jest miarą korelacji opartą na rangach; jest nieparametryczny i nie opiera się na założeniu normalności.

Rozkład próbkowania dla korelacji Pearsona zakłada normalność; w szczególności oznacza to, że chociaż można to obliczyć, wnioski oparte na testach istotności mogą nie być trafne.

Jak zauważa Rob w komentarzach, przy dużej próbce nie stanowi to problemu. Jednak w przypadku małych próbek, w których naruszana jest normalność, należy preferować korelację Spearmana.

Zaktualizuj Mulling nad komentarzami i odpowiedziami, wydaje mi się, że sprowadza się to do zwykłej debaty nieparametrycznej kontra testy parametryczne. Duża część literatury, np. W biostatystyce, nie dotyczy dużych próbek. Zasadniczo nie jestem kawalerska polegając na asymptotyce. Być może jest to uzasadnione w tym przypadku, ale nie jest to dla mnie oczywiste.


1
Nie. Korelacja Pearsona NIE zakłada normalności. Jest to oszacowanie korelacji między dowolnymi dwoma ciągłymi zmiennymi losowymi i jest spójnym estymatorem w stosunkowo ogólnych warunkach. Nawet testy oparte na korelacji Pearsona nie wymagają normalności, jeśli próbki są wystarczająco duże z powodu CLT.
Rob Hyndman,

2
Mam wrażenie, że Pearson jest zdefiniowany, o ile podstawowe rozkłady mają skończone wariancje i kowariancje. Zatem normalność nie jest wymagana. Jeśli leżące u podstaw rozkłady nie są normalne, statystyki testowe mogą mieć inny rozkład, ale jest to kwestia drugorzędna i nieistotna dla danego pytania. Czy to nie tak?

2
@Rob: Tak, zawsze możemy wymyślić obejścia, aby wszystko działało mniej więcej tak samo. Po prostu, aby uniknąć metody Spearmana - którą większość niestatystów poradzi sobie ze standardowym poleceniem. Wydaje mi się, że moją radą pozostaje stosowanie metody Spearmana w przypadku małych próbek, w których normalność jest wątpliwa. Nie jestem pewien, czy jest to przedmiotem sporu, czy nie.
ars

1
@ars. Użyłbym Spearmana, gdybym był zainteresowany monotonicznym, a nie liniowym skojarzeniem, lub jeśli występowałyby wartości odstające lub wysokie poziomy skośności. Używałbym Pearsona do relacji liniowych, pod warunkiem, że nie ma wartości odstających. Nie sądzę, aby wielkość próby miała znaczenie przy dokonywaniu wyboru.
Rob Hyndman,

3
@Rob: OK, dziękuję za dyskusję. Zgadzam się z pierwszą częścią, ale wątpię w ostatnią i uwzględniłbym, że rozmiar odgrywa rolę tylko dlatego, że normalne asymptotyki nie mają zastosowania. Na przykład Kowalski 1972 ma całkiem niezłe badanie historii wokół tego i dochodzi do wniosku, że korelacja Pearsona nie jest tak silna, jak myśl. Patrz: jstor.org/pss/2346598
ars
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.