Intuicja na temat definicji kowariancji

11

Próbowałem lepiej zrozumieć kowariancję dwóch zmiennych losowych i zrozumieć, jak pierwsza osoba, która o tym pomyślała, doszła do definicji rutynowo stosowanej w statystyce. Poszedłem na wikipedię, aby lepiej to zrozumieć. Z artykułu wynika, że dobra miara kandydata lub ilość dla powinna mieć następujące właściwości: $Cov(X,Y)$

Powinien mieć znak dodatni, gdy dwie zmienne losowe są podobne (tj. Gdy jedna zwiększa drugą, a druga zmniejsza również drugą).
Chcemy również, aby miał znak ujemny, gdy dwie zmienne losowe są przeciwnie do siebie podobne (tj. Gdy jedna zwiększa się, druga zmienna losowa ma tendencję do zmniejszania się)
Na koniec chcemy, aby ta kowariancja była równa zero (lub prawdopodobnie bardzo mała?), Gdy dwie zmienne są od siebie niezależne (tj. Nie różnią się względem siebie).

Z powyższych właściwości chcemy zdefiniować . Moje pierwsze pytanie brzmi: nie jest dla mnie całkowicie oczywiste, dlaczego spełnia te właściwości. Na podstawie posiadanych właściwości spodziewałbym się, że bardziej równanie podobne do „pochodnej” będzie idealnym kandydatem. Na przykład coś bardziej podobnego: „jeśli zmiana w X jest dodatnia, to zmiana w Y również powinna być dodatnia”. Ponadto, dlaczego odbierać różnicę od tego, co znaczy „poprawne” działanie? $Cov(X,Y)$ $Cov(X,Y) = E[(X-E[X])(Y-E[Y])]$

Bardziej styczne, ale wciąż interesujące pytanie, czy istnieje inna definicja, która mogłaby zaspokoić te właściwości i nadal byłaby znacząca i przydatna? Pytam o to, ponieważ wydaje się, że nikt nie kwestionuje, dlaczego używamy tej definicji w pierwszej kolejności (wydaje się, że „zawsze tak było”, co moim zdaniem jest okropnym powodem i utrudnia naukową i matematyczna ciekawość i myślenie). Czy przyjęta definicja jest „najlepszą” definicją, jaką możemy mieć?

Oto moje przemyślenia na temat tego, dlaczego przyjęta definicja ma sens (będzie to tylko intuicyjny argument):

Niech będzie pewną różnicą dla zmiennej X (tj. Zmieniła się z pewnej wartości na inną wartość w pewnym momencie). Podobnie jest w przypadku definicji . $\Delta_X$ $\Delta_Y$

Dla jednej instancji w czasie możemy obliczyć, czy są one powiązane, wykonując:

s i g n (Δ_{X} \cdot Δ_{Y})

$sign(\Delta_X \cdot \Delta_Y)$

To jest całkiem miłe! Dla jednej instancji w czasie spełnia pożądane właściwości. Jeśli oba wzrosną razem, wówczas przez większość czasu powyższa ilość powinna być dodatnia (i podobnie, gdy są przeciwnie podobne, będzie ujemna, ponieważ znaki będą miały przeciwne znaki). $Delta$

Ale to daje nam tylko ilość, której chcemy dla jednego wystąpienia w czasie, a ponieważ są one wartościami rv, możemy się dopasować, jeśli zdecydujemy się oprzeć relację dwóch zmiennych na podstawie tylko 1 obserwacji. Dlaczego więc nie spodziewać się tego, aby zobaczyć „przeciętny” produkt różnic.

s i g n (E [Δ_{X} \cdot Δ_{Y}])

$sign(E[\Delta_X \cdot \Delta_Y])$

Co powinno uchwycić średnio średnią relację zdefiniowaną powyżej! Ale jedynym problemem tego wyjaśnienia jest to, od czego mierzymy tę różnicę? Wydaje się, że można to rozwiązać, mierząc tę różnicę od średniej (co z jakiegoś powodu jest słuszne).

Wydaje mi się, że głównym problemem z definicją jest wzięcie różnicy od średniej . Wydaje mi się, że nie mogę sobie tego jeszcze uzasadnić.

Interpretację znaku można pozostawić do innego pytania, ponieważ wydaje się to bardziej skomplikowanym tematem.

correlation covariance

— Charlie Parker
źródło

2

Punktem wyjścia może być koncepcja lub intuicja krzyżowania produktów (kowariancja jest tylko jej przedłużeniem). Jeśli mamy dwie serie liczb X i Y o tej samej długości i zdefiniujemy sumę iloczynu krzyżowego jako Suma (Xi * Yi), to jest zmaksymalizowane, jeśli obie serie zostały posortowane w tej samej kolejności, i jest zminimalizowane, jeśli jedna serie posortowano rosnąco, a drugą malejąco.

— ttnphns

Różnica od średniej nie jest podstawową kwestią. Liczy się tylko wielkość, różnica w stosunku do pochodzenia; z niektórych powodów naturalnie i wygodnie jest umieścić pochodzenie w środku.

— ttnphns

@ttnphns, czy mówisz, że jeśli kowalenują razem, to kowariancja powinna być „zmaksymalizowana”, a jeśli kowariancja przeciwna, powinna być jak najbardziej negatywna? (tj. zminimalizowane) Dlaczego nie jest to wtedy zdefiniowane jako oczekiwanie na produkt krzyżowy?

— Charlie Parker

Kowariancja jest naturalna w przypadku zmiennych bez własnego pochodzenia. Następnie obliczamy średnią jako źródło (średnia ma ładne właściwości niezwiązane z tematem skojarzenia, więc jest ona zwykle wybierana). Jeśli pochodzenie jest nieodłączne i znaczące, uzasadnione jest, aby się go trzymać, wtedy „kowariancja” (co-wybuch) nie będzie symetryczna, ale kogo to obchodzi?

— ttnphns

1

Ta odpowiedź stanowi bardzo przyjemną intuicję związaną z kowariancją.

— Glen_b

10

Wyobraź sobie, że zaczynamy od pustego stosu liczb. Następnie zaczynamy rysować pary z ich wspólnego rozkładu. Może się zdarzyć jedna z czterech rzeczy: $(X,Y)$

Jeśli zarówno X, jak i Y są większe niż ich odpowiednie średnie, mówimy, że para jest podobna, więc umieszczamy liczbę dodatnią na stosie.
Jeśli zarówno X, jak i Y są mniejsze, to ich odpowiednie średnie, mówimy, że para jest podobna i umieszczamy liczbę dodatnią na stosie.
Jeśli X jest większy niż jego średnia, a Y jest mniejsza niż jego średnia, mówimy, że para jest różna i umieszcza na stosie liczbę ujemną.
Jeśli X jest mniejszy niż jego średnia, a Y jest większy niż jego średnia, mówimy, że para jest różna i umieszcza na stosie liczbę ujemną.

Następnie, aby uzyskać ogólną miarę (nie) podobieństwa X i Y, dodajemy wszystkie wartości liczb na stosie. Dodatnia suma sugeruje, że zmienne poruszają się w tym samym kierunku w tym samym czasie. Suma ujemna sugeruje, że zmienne poruszają się częściej w przeciwnych kierunkach. Suma zerowa sugeruje, że znajomość kierunku jednej zmiennej niewiele mówi o kierunku drugiej.

Ważne jest, aby myśleć o „większym niż średnia”, a nie tylko „dużym” (lub „dodatnim”), ponieważ dowolne dwie nieujemne zmienne zostałyby wówczas ocenione jako podobne (np. Wielkość następnej awarii samochodu na M42 i liczba biletów zakupionych jutro na stacji Paddington).

Formuła kowariancji jest formalizacją tego procesu:

$\text{Cov}(X,Y)=\mathbb E[(X−E[X])(Y−E[Y])]$

Wykorzystując rozkład prawdopodobieństwa zamiast symulacji Monte Carlo i określając rozmiar liczby, którą umieszczamy na stosie.

— przypuszczenia
źródło

Wow, to bardzo dobra odpowiedź. Jeszcze jedna rzecz, czy masz coś przeciwko dodaniu więcej szczegółów na temat uzasadnienia, dlaczego ma to być różnica w stosunku do średniej ? Dlaczego nie inna wartość? Dlaczego to ma sens? Myślę, że to jest najważniejsze, co sprawia, że utknąłem przy pełnej internalizacji tej definicji. Dzięki btw!

— Charlie Parker

Dzięki. Załóżmy, że w dwóch różnych krajach są dwie duże ciężarówki. Teraz duże ciężarówki przewożą duże ładunki. Gdybyśmy dodawali liczbę dodatnią do stosu za każdym razem, gdy każda ciężarówka przewoziła duży ładunek, musielibyśmy powiedzieć, że zachowanie dwóch ciężarówek było bardzo podobne. Ale tak naprawdę wielkość ładunku przenoszonego przez jedną ciężarówkę nie jest związana z wielkością ładunku przenoszonego przez drugą ciężarówkę w danym momencie. Po prostu są to duże ciężarówki. Więc nasza miara podobieństwa nie byłaby przydatna. Dlatego musimy myśleć o „większym niż przeciętnie”.

— przypuszcza

Przepraszam, że to trochę za późno, ale postanowiłem przejrzeć ten temat i nadal mam pytanie, dlaczego różni się od średniej. Czy różnica między ich średnimi jest ważna, ponieważ każda losowa zmienna X i Y może pochodzić z różnych skal? tj. Aby mieć pojęcie, co to jest „duży”, różni się on w zależności od skali podstawowej. Więc aby przezwyciężyć ten problem skali, porównujemy go do ich odpowiednich środków?

— Charlie Parker,

1

Oto mój intuicyjny sposób patrzenia na to bez żadnych równań.

Jest to uogólnienie wariancji na wyższe wymiary. Motywacja prawdopodobnie wynikała z próby opisania zachowania danych. Na pierwsze zamówienie mamy jego lokalizację - średnią. Do drugiego rzędu mamy rozproszenie - kowariancję.

Wydaje mi się, że głównym problemem z definicją jest wzięcie różnicy od średniej. Wydaje mi się, że nie mogę sobie tego jeszcze uzasadnić.

punkt rozproszenia jest oceniany względem środka rozkładu. Najbardziej podstawową definicją wariancji jest „średnie odchylenie od średniej”. dlatego należy odjąć średnią także w przypadku kowariancji.
Inną główną motywacją, która przychodzi na myśl, jest potrzeba zdefiniowania sposobu pomiaru odległości między zmiennymi losowymi. Odległość Mahalanobisa i kowariancja idą w parze: biorąc pod uwagę rozkład Gaussa i dwie inne próbki, które mają równą odległość euklidesową do średniej rozkładu. Gdybym zapytał cię, która z próbek jest bardziej oddalona, która nie została wyciągnięta z rozkładu gaussowskiego, odległość euklidesowa nie zrobi tego. Odległość Mahalanobisa ma jedną zauważalną różnicę w stosunku do odległości euklidesowej: bierze pod uwagę rozproszenie (kowariancję) rozkładu. Umożliwia to uogólnienie odległości do zmiennych losowych.

— Rhadar
źródło

1

Na koniec chcemy, aby ta kowariancja była równa zero (lub prawdopodobnie bardzo mała?), Gdy dwie zmienne są od siebie niezależne (tj. Nie różnią się względem siebie).

$\left(\frac 12\right)$ $X$ $Y$ $E[XY]$ $E[XY] = \frac 14$ $\hat{X}=1000X$ $\hat Y = 1000Y$ $E[\hat X \hat Y] = 250,000$ $(X,Y) = E[(X-E[X])(Y-E[Y])]$

Chcemy również, aby miał znak ujemny, gdy dwie zmienne losowe są przeciwnie do siebie podobne (tj. Gdy jedna zwiększa się, druga zmienna losowa ma tendencję do zmniejszania się)

$X$ $Y = 1-X$ $E[XY]=0$ $(X,Y) = E[(X-E[X])(Y-E[Y])]$

Powinien (sic) mieć znak dodatni, gdy dwie zmienne losowe są podobne (tj. Gdy jedna zwiększa drugą, a druga zmniejsza, druga też).

$X$ $Y = X-1$ $E[XY]$ $(X,Y) = E[(X-E[X])(Y-E[Y])]$ daje wartość dodatnią dokładnie tak, jak tego chcesz.

$X = Y$

— Dilip Sarwate
źródło

1

Zastanawiałem się nad tym samym pytaniem, a intuicja podana w domysłach pomogła mi. Aby zwizualizować intuicję, wziąłem dwa losowe wektory normalne, xiy, wykreśliłem wykres rozproszenia i pokolorowałem każdy punkt iloczynem ich odchyleń od ich odpowiednich średnich (niebieski dla wartości dodatnich, czerwony dla wartości ujemnych).

Jak wynika z wykresu, produkt jest najbardziej dodatni w prawym górnym i lewym dolnym kwadrancie, a najbardziej ujemny w prawym dolnym i lewym górnym kwadrancie. Efekt zsumowania produktów dałby 0, ponieważ niebieskie punkty anulują czerwone.

Ale widać, że jeśli usuniemy czerwone punkty, pozostałe dane wykażą pozytywną relację między sobą, co jest potwierdzone przez dodatnią sumę produktów (tj. Sumę niebieskich punktów).

— charleslow
źródło

0

w przestrzeni wektorowej zmiennych losowych uzasadnione jest zdefiniowanie kwadratu odległości między dwiema zmiennymi losowymi x i y za pomocą E {(xy) ^ 2} teraz w odniesieniu do tej definicji iloczynu iloczynu odległości lub relacji zmiennych losowych będzie E {xy}, która jest tak podobna do definicji kowariancji, z wyjątkiem terminów -E {x} i -E {y}, które służą do pewnego rodzaju normalizacji.

— nima
źródło