Być może jest to pomocne dla niektórych osób o tym samym intuicyjnym zrozumieniu. Wszyscy widzieliśmy coś takiego:
Dane te są prawdopodobnie niezależne, ale wyraźnie wykazują korelację (r = 0,66). „Myślałem, że niezależność oznacza zerową korelację!” student mówi.
Jak już zauważyli inni, wartości próbek są skorelowane, ale nie oznacza to populacji ma niezerową korelację.
Oczywiście te dwa powinny być niezależne - biorąc pod uwagę, że Nicolas Cage pojawił się w tym roku w rekordowym 10 filmach, ze względów bezpieczeństwa nie powinniśmy zamykać lokalnego basenu na lato.
Ale kiedy sprawdzimy, ile osób utonęło w tym roku, istnieje niewielka szansa, że rekordowe 1000 osób utonie w tym roku.
Uzyskanie takiej korelacji jest mało prawdopodobne. Może jeden na tysiąc. Ale jest to możliwe, mimo że oba są niezależne. Ale to tylko jeden przypadek. Weź pod uwagę, że istnieją miliony możliwych zdarzeń, które można tam zmierzyć, i możesz zobaczyć, że prawdopodobieństwo, że jakieś dwa dadzą wysoką korelację, jest dość wysokie (stąd istnienie takich wykresów jak powyżej).
Innym sposobem spojrzenia na to jest to, że zagwarantowanie, że dwa niezależne zdarzenia zawsze będą dawać nieskorelowane wartości, samo w sobie jest restrykcyjne. Biorąc pod uwagę dwie niezależne kości i wyniki pierwszej, istnieje pewien (spory) zestaw wyników dla drugiej kości, który da pewną niezerową korelację. Ograniczenie wyników drugiej kości w celu uzyskania zerowej korelacji z pierwszą jest wyraźnym naruszeniem niezależności, ponieważ rzuty pierwszych kości wpływają teraz na rozkład wyników.