Dlaczego niezależność oznacza zerową korelację?

16

Przede wszystkim nie pytam o to:

Dlaczego zerowa korelacja nie oznacza niezależności?

Jest to rozwiązane (raczej ładnie) tutaj: /math/444408/why-does-zero-correlation-not-imply-independence

Pytam o coś przeciwnego ... powiedzmy, że dwie zmienne są całkowicie niezależne od siebie.

Czy nie mogliby przez przypadek mieć odrobinę korelacji?

Czy nie powinno być ... niezależność oznacza BARDZO MAŁĄ korelację?

— Joshua Ronis
źródło

5

Nawet zmienne niezależne prawie zawsze będą miały niezerową korelację PRZYKŁADOWĄ, chociaż prawdopodobnie nadal będą bliskie zeru.

— jsk

10

Jak zauważył @jsk, możesz mylić korelację próbek z oczekiwaną korelacją

— David

1

@David mógłbyś wyjaśnić? Nadal jestem bardzo początkującym statystyką.

— Joshua Ronis

3

@JoshuaRonis Przykładowa korelacja to korelacja obserwowana podczas pracy z wieloma danymi. Używasz tego, aby dowiedzieć się, czym jest „prawdziwa” korelacja między dwiema zmiennymi. Im większa próbka, tym lepsze oszacowanie. Na przykład korelacja między wynikami dwóch kości jest niezależna, a zatem nieskorelowana, nawet jeśli rzucisz je razem dziesięć razy, możesz uzyskać korelację (z powodu losowej szansy). Pamiętaj jednak, że nie ma preferencji dla korelacji dodatniej ani ujemnej (tzn. masz równe szanse na każde z nich)

— David

1

Nie dupek, ale powiązana dyskusja: czy korelacja niezerowa oznacza zależność?

— SecretAgentMan

36

Zgodnie z definicją współczynnika korelacji, jeśli dwie zmienne są niezależne, ich korelacja wynosi zero. Tak więc nie mogło być przypadkowo żadnej korelacji!

ρ_{X, Y} = \frac{E [X Y] - E [X] E [Y]}{\sqrt{E [X^{2}] - [E [X]]^{2}} \sqrt{E [Y^{2}] - [E [Y]]^{2}}}

$\rho_{X,Y}=\frac{\operatorname{E}[XY]-\operatorname{E}[X]\operatorname{E}[Y]}{\sqrt{\operatorname{E}[X^2]-[\operatorname{E}[X]]^2}~\sqrt{\operatorname{E}[Y^2]- [\operatorname{E}[Y]]^2}}$

Jeśli $X$ i $Y$ są niezależne, oznacza $\operatorname{E}[XY]= \operatorname{E}[X]\operatorname{E}[Y]$ . Stąd licznik $\rho_{X,Y}$ w tym przypadku wynosi zero.

Tak więc, jeśli nie zmienisz znaczenia korelacji, jak wspomniano tutaj, nie jest to możliwe. Chyba że wyjaśnij swoją definicję na podstawie korelacji.

— O mój Boże
źródło

2

A jednak mamy wykresy wyraźnie pokazujące (odwrotną) korelację między liczbą piratów a średnią globalną temperaturą. Jak wskazują inne komentarze, należy uważać na wielkość próby, nie mówiąc już o „przypadkowych wystąpieniach”

— Carl Witthoft,

@OmG ”, jeśli nie zmienisz znaczenia korelacji, jak wspomniano tutaj„ Kiedy czytam pytanie PO, mam zupełnie inne znaczenie „korelacji”. Dla mnie: „Czy nie mogliby przez przypadek mieć odrobinę korelacji?” bardzo silnie implikuje „mierzenie” korelacji, a kiedy mierzysz korelację w rzeczywistości, bardzo często znajdziesz „odrobinę korelacji przez przypadek”.

— przemysł7

1

@ Industry7 Rozumiem. Ale należy to zdefiniować metodą formalną. Jest jakościowy i nie możemy o tym tutaj rozmawiać.

— OmG,

@CarlWitthoft Liczba piratów i średnia globalna temperatura nie są niezależne. Mają wspólną przyczynę (czas, rozwój, modernizację itp.), Która tworzy zależność między nimi. „Niezależność” nie oznacza „nie powoduje”; oznacza „niepowiązany” i wyraźnie te wykresy pokazują skojarzenie.

— Noah,

@ Nie, obawiam się, że zdarzyło się WHOOSH. venganza.org

— Carl Witthoft,

19

$r = 0.$ $\rho.]$

$n = 5$ $1.$

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

$5,$ $r = -0.5716.$

Pod tym względem nie ma nic specjalnego w rozkładzie wykładniczym. Zmiana rozkładu macierzystego na standardowy normalny dała następujące wyniki.

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

Dla porównania, tutaj jest odpowiedni histogram korelacji dla par normalnych próbek wielkości $n = 20.$

Uwaga: inne strony w tej witrynie omawiają dystrybucję $r$ bardziej szczegółowo; jednym z nich są pytania i odpowiedzi .

— BruceET
źródło

6

W przypadku małej wielkości próby prawdopodobnie znajdziesz korelacje, które są „zauważalnie” różne od zera, ale nie znajdziesz już korelacji znacznie różniących się od zera. Mimo że oszacowanie punktowe jest dalekie od zera, masz o wiele za mało danych, aby śmiało twierdzić, że widzisz niezerową korelację z powodu czegoś innego niż przypadek. Przy zaledwie 5 parach nawet współczynniki korelacji większe niż 0,8 mogą nie różnić się znacząco od 0.

— Nuclear Wang

11

Prosta odpowiedź: jeśli 2 zmienne są niezależne, to korelacja populacji wynosi zero, podczas gdy korelacja próbki będzie zwykle niewielka, ale niezerowa.

Wynika to z faktu, że próba nie stanowi idealnej reprezentacji populacji.

Im większa próba, tym lepiej reprezentuje populację, tym mniejsza będzie korelacja. W przypadku próbki nieskończonej korelacja wynosiłaby zero.

— Dave
źródło

1

Dokładne sformułowanie byłoby takie dla każdego

p

$p$ i

ϵ

$\epsilon$ , jest trochę

n

$n$ tak, że jeśli wielkość próbki jest większa niż

n

$n$ , wówczas prawdopodobieństwo korelacji jest większe niż

ϵ

$\epsilon$ jest mniej niż

p

$p$ .

— Accumumulation

Tak, absolutnie poprawne! Starałem się, aby moja odpowiedź była jak najprostsza i pojęciowa.

— Dave

1

Być może jest to pomocne dla niektórych osób o tym samym intuicyjnym zrozumieniu. Wszyscy widzieliśmy coś takiego:

Dane te są prawdopodobnie niezależne, ale wyraźnie wykazują korelację ( $r = 0.66$ ). „Myślałem, że niezależność oznacza zerową korelację!” student mówi.

Jak już zauważyli inni, wartości próbek są skorelowane, ale nie oznacza to populacji ma niezerową korelację.

Oczywiście te dwa powinny być niezależne - biorąc pod uwagę, że Nicolas Cage pojawił się w tym roku w rekordowym 10 filmach, ze względów bezpieczeństwa nie powinniśmy zamykać lokalnego basenu na lato.

Ale kiedy sprawdzimy, ile osób utonęło w tym roku, istnieje niewielka szansa, że rekordowe 1000 osób utonie w tym roku.

Uzyskanie takiej korelacji jest mało prawdopodobne. Może jeden na tysiąc. Ale jest to możliwe, mimo że oba są niezależne. Ale to tylko jeden przypadek. Weź pod uwagę, że istnieją miliony możliwych zdarzeń, które można tam zmierzyć, i możesz zobaczyć, że prawdopodobieństwo, że jakieś dwa dadzą wysoką korelację, jest dość wysokie (stąd istnienie takich wykresów jak powyżej).

Innym sposobem spojrzenia na to jest to, że zagwarantowanie, że dwa niezależne zdarzenia zawsze będą dawać nieskorelowane wartości, samo w sobie jest restrykcyjne. Biorąc pod uwagę dwie niezależne kości i wyniki pierwszej, istnieje pewien (spory) zestaw wyników dla drugiej kości, który da pewną niezerową korelację. Ograniczenie wyników drugiej kości w celu uzyskania zerowej korelacji z pierwszą jest wyraźnym naruszeniem niezależności, ponieważ rzuty pierwszych kości wpływają teraz na rozkład wyników.

— Simon Alford
źródło