Przykłady rzeczywistej różnicy między niezależnością a korelacją

Dobrze wiadomo, że niezależność zmiennych losowych implikuje zerową korelację, ale zerowa korelacja nie musi oznaczać niezależności.

Natknąłem się na wiele przykładów matematycznych wykazujących zależność pomimo zerowej korelacji. Czy istnieją jakieś prawdziwe przykłady na poparcie tego faktu?

correlation independence intuition

— 46697
źródło

Bądź ostrożny, tylko zerowa korelacja i łącznie normalne zmienne oznaczają niezależność.

— Francis

@ Siddesh „Ponieważ objętość nie jest liniową funkcją długości, nie są one skorelowane”. Cóż, nie idealnie skorelowane. Ale byłyby pozytywnie skorelowane.

— Silverfish,

@ Siddhesh: zadziała tylko wtedy, gdy ...

E [{l e n g t h}^{4}] - E [l e n g t h] E [{l e n g t h}^{3}] = 0

$E[\mathrm{length}^4]-E[\mathrm{length}]E[\mathrm{length}^3]=0$

— Francis

Jeśli nie zgadzasz się z moją edycją, dodaj komentarz dotyczący normalnej dystrybucji. Pomyślałem jednak, że lepiej go usunąć, ponieważ (1) jest to poboczna kwestia poboczna twojego głównego pytania (2) (chyba) została już zadana w CV, więc byłaby to kopia istniejącego materiału tutaj ( 3) Nie chciałem, aby powodowało to zamieszanie wśród przyszłych czytelników. Próbowałem zredagować pytanie w taki sposób, aby zwiększyć jego szanse na ponowne otwarcie: Myślę, że pytanie to różni się znacznie od „statystyk matematycznych” na ten sam temat.

— Silverfish,

Nadal uważam, że to pytanie jest naprawdę miłe i może zostać przyciągnięte kolejnymi interesującymi odpowiedziami, jeśli można je ponownie otworzyć (co może wymagać edycji, aby wyraźnie odróżnić je od wątku, który jest obecnie uważany za duplikat). Podniosłem wątek na temat Meta o tym, co trzeba zrobić, aby to pytanie zostało ponownie otwarte. Wszystkie komentarze są mile widziane.

— Silverfish,

Odpowiedzi:

Zwroty zapasów są dobrym przykładem tego, o co prosisz. Istnieje bardzo bliska zerowej korelacji między dzisiejszym a wczorajszym zwrotem S&P 500. Istnieje jednak wyraźna zależność: zwroty kwadratowe są pozytywnie autokorelowane; okresy wysokiej zmienności są grupowane w czasie.

Kod R:

library(ggplot2)
library(grid)
library(quantmod)

symbols   <- new.env()
date_from <- as.Date("1960-01-01")
date_to   <- as.Date("2016-02-01")
getSymbols("^GSPC", env=symbols, src="yahoo", from=date_from, to=date_to)  # S&P500

df <- data.frame(close=as.numeric(symbols$GSPC$GSPC.Close),
                 date=index(symbols$GSPC))
df$log_return     <- c(NA, diff(log(df$close)))
df$log_return_lag <- c(NA, head(df$log_return, nrow(df) - 1))

cor(df$log_return,   df$log_return_lag,   use="pairwise.complete.obs")  # 0.02
cor(df$log_return^2, df$log_return_lag^2, use="pairwise.complete.obs")  # 0.14

acf(df$log_return,     na.action=na.pass)  # Basically zero autocorrelation
acf((df$log_return^2), na.action=na.pass)  # Squared returns positively autocorrelated

p <- (ggplot(df, aes(x=date, y=log_return)) +
      geom_point(alpha=0.5) +
      theme_bw() + theme(panel.border=element_blank()))
p
ggsave("log_returns_s&p.png", p, width=10, height=8)

Szeregi czasowe zwrotów dziennika w S&P 500:

Gdyby zwroty były niezależne w czasie (i stacjonarne), bardzo mało prawdopodobne byłoby zaobserwowanie tych wzorców klastra zmienności i nie zobaczyłbyś autokorelacji w kwadratowych zwrotach dziennika.

— Adrian
źródło

Innym przykładem jest związek między stresem a ocenami na egzaminie. Zależność ma odwrotny kształt litery U, a korelacja jest bardzo niska, mimo że związek przyczynowy wydaje się dość wyraźny.

— Peter Flom
źródło

To fajny przykład. Czy posiadasz dane oparte na doświadczeniu introspekcji / nauczania?

— Adrian

Widziałem studium tego, ale widziałem to wiele lat temu, więc nie mam cytatu ani faktycznych danych.

— Peter Flom