Krótka odpowiedź: bardzo mało odporna. Korelacja jest miarą zależności liniowej , a gdy jednej zmiennej nie można zapisać jako funkcji liniowej drugiej (i nadal ma podany rozkład krańcowy), nie można uzyskać idealnej (dodatniej lub ujemnej) korelacji. W rzeczywistości możliwe wartości korelacji można poważnie ograniczyć.
Problem polega na tym, że chociaż korelacja populacji zawsze zawiera się między a 1 , dokładny możliwy do uzyskania zasięg zależy w dużej mierze od rozkładów krańcowych. Szybki dowód i demonstracja:−11
Osiągalny zakres korelacji
(X,Y)HFGH
H−(x,y)≤H(x,y)≤H+(x,y),
H.-( x , y)H.+( x , y)= maks. ( F( x ) + G ( y) - 1 , 0 )= min ( F( x ) , G ( y) ) .
Granice same w sobie są funkcjami dystrybucji. Niech ma jednolity rozkład. Górna granica to funkcja rozkładu a dolna granica to funkcja rozkładu .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )U( X, Y) = ( F-( U) , G-( U) )( F.-( - U) , G-( 1 - U) )
Teraz, korzystając z tego wariantu w formule kowariancji,
widzimy, że uzyskujemy maksymalną i minimalną korelację, gdy jest równe odpowiednio i , tj. gdy jest odpowiednio (dodatnio lub ujemnie ) funkcja monotonicznej .H H + H - Y X
Cov( X, Y) = ∬H.( x , y) - F( x ) G ( y) dx dy,
H.H.+H.-YX
Przykłady
Oto kilka przykładów (bez dowodów):
Gdy i są zwykle rozmieszczone otrzymujemy maksimum i minimum, gdy ma zwykle dwuwymiarowe rozkładu normalnego, w którym jest zapisywane jako funkcja liniowa . Oznacza to, że otrzymujemy maksimum dla
Tutaj granice są (oczywiście) i , niezależnie od tego, w jaki sposób i odchylenia i mają.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XXY( X, Y)YX-11XY
Y= μY+ σYX- μXσX.
- 11XY
Gdy i mają logarytmiczne rozkłady, dolna granica nigdy nie jest osiągalna, ponieważ oznaczałoby to, że można zapisać dla niektórych i dodatniej , a nigdy nie może być ujemna. Istnieją (nieco brzydkie) formuły dla dokładnych granic, ale pozwólcie, że podam specjalny przypadek. Gdy i mają standardowe rozkłady logarytmiczne (co oznacza, że gdy potęgują się, są one standardowe normalne), osiągalny zakres wynosi . (Ogólnie górna granica jest również ograniczona.)Y Y Y = a - b X a b Y X Y [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]XYYY= a - b XzabYXY[ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]
Gdy ma standardowy rozkład normalny, a ma standardowy rozkład logarytmiczny, granice korelacji wynoszą
XY
± 1e - 1----√≈ 0,76.
Zauważ, że wszystkie granice dotyczą korelacji populacji . Korelacja próbki może łatwo wykraczać poza granice, szczególnie w przypadku małych próbek (szybki przykład: wielkość próbki 2).
Szacowanie granic korelacji
W rzeczywistości dość łatwo jest oszacować górną i dolną granicę korelacji, jeśli można przeprowadzić symulację z rozkładów krańcowych. W ostatnim przykładzie powyżej możemy użyć tego kodu R:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
Jeśli mamy tylko rzeczywiste dane i nie znamy rozkładów krańcowych, nadal możemy zastosować powyższą metodę. Nie jest problemem, że zmienne są zależne, o ile pary obserwacji są zależne. Ale pomaga mieć wiele par obserwacji.
Przekształcanie danych
Oczywiście możliwe jest przekształcenie danych do (marginalnego) rozkładu normalnego, a następnie obliczenie korelacji na przekształconych danych. Problem polega na interpretacji. (I po co stosować rozkład normalny zamiast jakiegokolwiek innego, w którym może być funkcją liniową ?) W przypadku danych, które są dwuwymiarowe normalnie rozmieszczone, korelacja ma niezłą interpretację (jej kwadrat jest wariancją jednej zmiennej wyjaśnionej przez drugą ). W tym przypadku tak nie jest.YX
To, co naprawdę tu robisz, to tworzenie nowej miary zależności, która nie zależy od rozkładów krańcowych; tzn. tworzysz miarę zależności opartą na kopule . Istnieje już kilka takich miar, ρ Spearmana i τ Kendalla są najbardziej znane. (Jeśli naprawdę interesują Cię koncepcje zależności, nie jest złym pomysłem przyjrzenie się kopulom.)
Podsumowując
Kilka końcowych przemyśleń i rad: samo spojrzenie na korelację ma jeden duży problem: sprawia, że przestajesz myśleć. Natomiast patrzenie na wykresy rozrzutu często powoduje, że zaczynasz myśleć. Moją główną radą byłoby zatem zbadanie wykresów rozrzutu i próba wyraźnego modelowania zależności.
To powiedziawszy, jeśli potrzebujesz prostej miary podobnej do korelacji, po prostu użyłbym ρ Spearmana (oraz powiązany przedział ufności i testy). Jego zasięg nie jest ograniczony. Ale bądź bardzo świadomy zależności niemonotonicznej. Artykuł w Wikipedii na temat korelacji zawiera kilka ciekawych wykresów ilustrujących potencjalne problemy.