Dlaczego ρ Pearsona jest wyczerpującym miernikiem asocjacji, jeśli rozkład połączeń jest normalny dla wielu zmiennych?


Odpowiedzi:


15

Najlepiej jest zrozumieć „miarę asocjacji” w rozkładzie wielowymiarowym, aby składał się ze wszystkich właściwości, które pozostają takie same, gdy wartości są arbitralnie przeskalowywane i aktualizowane. Może to zmienić średnie i wariancje na dowolne teoretycznie dopuszczalne wartości (wariancje muszą być dodatnie; średnie mogą być dowolne).

Współczynniki korelacji („ Pearsona ”) następnie całkowicie określają wielowymiarowy rozkład normalny. Jednym ze sposobów, aby to zobaczyć, jest spojrzenie na dowolną definicję formalną, taką jak wzory na funkcję gęstości lub funkcję charakterystyczną. Obejmują one tylko środki, wariancje i kowariancje - ale kowariancje i korelacje można wywnioskować od siebie, gdy znasz wariancje.ρ

Wielowymiarowa rodzina Normal nie jest jedyną rodziną dystrybucji, która korzysta z tej właściwości. Na przykład dowolny wielowymiarowy rozkład t (dla stopni swobody przekraczających ) ma dobrze zdefiniowaną macierz korelacji i jest całkowicie determinowany również przez pierwsze dwa momenty.2


Czy mam rację, że zgodnie z definicją, którą tu stosujesz, kowariancja nie byłaby miarą powiązania? Ponieważ miałoby tendencję do rozszerzania się wraz ze wzrostem wariancji.
user1205901 - Przywróć Monikę

2
To jest poprawne. Chociaż kowariancja jest oczywiście związana z pewną miarą powiązania, sama w sobie nie jest, ponieważ wpływają na nią również inne czynniki.
whuber

19

Warianty mogą być powiązane w taki sposób, że korelacja Pearsona jest całkowicie ślepa.

W normalnej wielowymiarowej korelacja Pearsona jest „wyczerpująca” w tym sensie, że jedyne możliwe powiązanie jest indeksowane przez . Ale w przypadku innych rozkładów (nawet tych z normalnymi marginesami) może istnieć powiązanie bez korelacji. Oto kilka wykresów 3 normalnych losowych zmiennych (x, y i x, z); są wysoce powiązane (jeśli powiesz mi wartość zmiennej x , powiem ci pozostałe dwa, a jeśli powiesz mi y , mogę powiedzieć ci z ), ale wszystkie są nieskorelowane.ρxyz

wprowadź opis zdjęcia tutaj

Oto kolejny przykład powiązanych, ale nieskorelowanych wariantów:

wprowadź opis zdjęcia tutaj

(Podkreślono, że chodzi o dystrybucje, chociaż ilustruję to tutaj danymi).

Nawet gdy zmienne są skorelowane, ogólnie korelacja Pearsona nie mówi ci, jak to zrobić - możesz uzyskać bardzo różne formy asocjacji, które mają tę samą korelację Pearsona (ale kiedy zmienne są wielowymiarowe normalne, jak tylko ci powiem korelacja, którą można dokładnie powiedzieć, w jaki sposób powiązane są znormalizowane zmienne).

ρ definiuje możliwe powiązanie) charakteryzuje normalną wielowymiarową, nawet jeśli sugeruje to cytat z tytułu.]

(Częstym sposobem rozwiązania skojarzenia wielowymiarowego jest użycie kopuł. Na stronie istnieje wiele pytań dotyczących kopuł; niektóre z nich mogą okazać się pomocne)


Czy istnieją takie dane z takich dystrybucji?

@what Czy istnieją rzeczywiste dane pochodzące nawet z normalnych dystrybucji? Wątpię w to, więc (ponieważ moje marginesy były normalne na diagramach), odpowiedź natychmiast brzmiałaby „nie”. Celem przykładów było jasne pokazanie, dlaczego powiązanie między zmiennymi losowymi nie jest tak proste, jak się czasem zakłada (jak często ludzie obliczają korelację Pearsona w celu zmierzenia powiązania? Często), a także wskazanie, że posiadanie normalnych marginesów i bycie wielowymiarowymi normalne są różne. Z pewnością zdarzają się bardzo realne przykłady, w których korelacja Pearsona nie uwzględnia tego, co się dzieje.
Glen_b

Nie mówmy przez chwilę o dystrybucjach. Kiedy obliczamy korelacje z chmury kropek, zakładamy leżącą u podstaw „geometrycznie ukształtowaną” (liniową, hiperboliczną, logarytmiczną, sinusoidalną itp.) Idealną korelację, od której odchodzą kropki w chmurze z powodu jakiegoś „błędu”. Teraz wszystkie idealne kształty, które widziałem, zostały wyabstrahowane z rzeczywistych danych, w których ciągły (bez przerw) i zawsze rosnący wzdłuż co najmniej jednej osi (to znaczy nie jest na przykład kołowy). Moja wiedza na temat danych jest ograniczona, więc zastanawiałem się, czy rzeczywiście istnieją dane z prawdziwego świata, których korelacja jest nieciągła lub kolista.

Na przykład mogą istnieć dane, które, jeśli wykreślę, będą wyglądały jak dwie chmury kropek. Jeśli na ślepo obliczę korelacje na tych danych, mogę je znaleźć, podczas gdy (a przynajmniej tak mi powiedziano) wykres wyraźnie wskazuje, że brakuje mi nieznanej, mylącej zmiennej, która, gdybym to uwzględniła, rozwiązałaby fałszywy związek w moim dane. Gdyby mój profesor spojrzał na twoje przykłady w kształcie „x” lub „y”, powiedziałby mi, że mam pomieszane dwa podzbiory danych.
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.