Próg współczynnika korelacji wskazujący istotność statystyczną korelacji w macierzy korelacji

10

Obliczyłem macierz korelacji zbioru danych, który zawiera 455 punktów danych, każdy punkt danych zawiera 14 charakterystyk. Zatem wymiar macierzy korelacji wynosi 14 x 14.

Zastanawiałem się, czy istnieje próg wartości współczynnika korelacji, który wskazuje, że istnieje znacząca korelacja między dwiema tymi cechami.

Mam wartość w zakresie od -0,2 do 0,85 i myślałem, że ważnymi są te, które są powyżej 0,7.

Czy istnieje ogólna wartość współczynnika korelacji, którą należy wziąć pod uwagę dla progu, czy też kontekst zależy od typu danych, który badam?

correlation statistical-significance multiple-comparisons

— Szymon
źródło

1

sprawdziłeś stats.stackexchange.com/questions/5750/… ?

— user603

@ user603 Dobry haczyk: to praktycznie to samo pytanie. Nowością jest tutaj pytanie, czy testy na znaczącą korelację mogą zależeć od „typu danych” (czytaj: dystrybucja danych). Miejmy nadzieję, że odpowiedzi koncentrują się na tym aspekcie zamiast na starym podejściu.

— whuber

8

Testy istotności dla korelacji

Istnieją testy o znaczeniu statystycznym, które można zastosować do poszczególnych korelacji, które wskazują prawdopodobieństwo uzyskania korelacji tak dużej lub większej niż korelacja próbki, przy założeniu, że hipoteza zerowa jest prawdziwa.

Kluczową kwestią jest to, że to, co stanowi statystycznie istotny współczynnik korelacji, zależy od:

Wielkość próbki próby: większe rozmiary próby doprowadzą do mniejszych progów
alfa : często ustawione na 0,05, mniejsze alfy doprowadzą do wyższych progów istotności statystycznej
test jednostronny / dwustronny : Zgaduję, że używałbyś więc to chyba nie ma znaczenia
rodzaj współczynnika korelacji : Zgaduję, że używasz Pearsona
dystrybucyjne założenia x i y

W typowych okolicznościach, gdy alfa wynosi 0,05, przy zastosowaniu testu dwustronnego, z korelacją Pearsona, i gdzie normalność jest co najmniej odpowiednim przybliżeniem, głównym czynnikiem wpływającym na wartość odcięcia jest wielkość próbki.

Oto kalkulator online
cor.test obliczy istotność statystyczną korelacji w R

Próg ważności

Innym sposobem interpretacji pytania jest rozważenie, czy nie jesteś zainteresowany tym, czy korelacja jest istotna statystycznie, ale raczej, czy jest ona praktycznie ważna.

Niektórzy badacze zaproponowali praktyczne reguły interpretacji znaczenia współczynników korelacji, ale te reguły są specyficzne dla danej dziedziny.

Testy wielokrotnego znaczenia

$k(k-1)/2$ $k$ $14(13)/2=91$ Jeśli hipoteza zerowa byłaby prawdziwa dla wszystkich korelacji w macierzy, wówczas uruchamiałeś testy istotności , tym bardziej prawdopodobne jest, że popełnisz błąd typu I. Np. w twoim przypadku zrobiłbyś to średnio $91 * .05 = 4.55$ Błędy typu I, jeśli hipoteza zerowa była prawdziwa dla wszystkich korelacji.

Jak zauważył @ user603, kwestie te zostały dobrze omówione we wcześniejszym pytaniu .

Zasadniczo uważam, że przydatne jest interpretowanie macierzy korelacji w celu skupienia się na strukturze wyższego poziomu. Można to zrobić w nieformalny sposób, patrząc na ogólne wzorce w macierzy korelacji. Można to zrobić bardziej formalnie, stosując techniki takie jak PCA i analiza czynnikowa. Takie podejście pozwala uniknąć wielu problemów związanych z testowaniem wielu znaczeń.

— Jeromy Anglim
źródło

1

Jedną z opcji byłoby testowanie symulacji lub permutacji. Jeśli znasz rozkład, z którego pochodzą twoje dane, możesz symulować z tego rozkładu, ale niezależnie od wszystkich obserwacji. Jeśli nie znasz rozkładu, możesz permutować każdą ze swoich zmiennych niezależnie od siebie, co da ci taki sam ogólny rozkład krańcowy każdej zmiennej, ale z usuniętą korelacją.

Wykonaj jedną z powyższych czynności (zachowując ten sam rozmiar próbki i wymiary matrycy) całą masę razy (około 10 000) i spójrz na maksymalną bezwzględną korelację lub inny wysoki kwantyl, który może być interesujący. To da ci rozkład z hipotezy zerowej, że możesz następnie porównać maksimum rzeczywistych obserwowanych korelacji z (i innymi wysokimi kwantylami zainteresowania).

— Greg Snow
źródło

0

Możesz pokazać, że błąd standardowy w korelacji Pearsona dwóch wektorów niezależnych stochastycznie próbkowanych z rozkładu normalnego wynosi $n^{-2}$ , gdzie $n$ jest długością wektora. Tak więc miałaby statystycznie istotna korelacja dwóch wektorów $corr >> n^{-2}$

— Hrobjartur
źródło