Czy oznacza, że ​​centrowanie zmniejsza kowariancję?


11

Zakładając, że mam dwie nie-niezależne zmienne losowe i chcę jak najbardziej zmniejszyć kowariancję bez utraty zbyt dużej ilości „sygnału”, czy oznacza to, że centrowanie pomaga? Czytałem gdzieś, co oznacza, że ​​centrowanie zmniejsza korelację o znaczący czynnik, więc myślę, że powinno to zrobić to samo dla kowariancji.

Odpowiedzi:


30

Jeżeli i są zmienne i przypadkowe i są stałymi, a centrującego szczególny przypadek i , więc nie wpływa centrowania kowariancji.XYab

Cov(X+a,Y+b)=E[(X+aE[X+a])(Y+bE[Y+b])]=E[(X+aE[X]E[a])(Y+bE[Y]E[b])]=E[(X+aE[X]a)(Y+bE[Y]b)]=E[(XE[X])(YE[Y])]=Cov(X,Y).
a=E[X]b=E[Y]


Ponadto, ponieważ korelacja jest zdefiniowana jako nazwa widzimy, że nazwa więc centrowanie nie wpływa w szczególności na korelację.

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y),
Corr(X+a,Y+b)=Cov(X+a,Y+b)Var(X+a)Var(Y+b)=Cov(X,Y)Var(X)Var(Y),


To była wersja populacyjna tej historii. Przykładowa wersja jest taka sama: jeśli użyjemy nazwa jako nasze oszacowanie kowariancji między i ze sparowanej próbki , a następnie

Cov^(X,Y)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)
XY(X1,Y1),,(Xn,Yn)
Cov^(X+a,Y+b)=1ni=1n(Xi+a1nj=1n(Xj+a))(Yi+b1nj=1n(Yj+b))=1ni=1n(Xi+a1nj=1nXjnna)(Yi+b1nj=1nYjnnb)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)=Cov^(X,Y)
dla dowolny i .ab


dzięki za szczegółową odpowiedź. Czy to oznacza, że ​​w przypadku kowariancji próby wielkość próby również nie ma wpływu? tzn. zmniejszenie wielkości próbki nie zmniejsza kowariancji próbki?
lvdp

3
@lvdp To prawdopodobnie powinno być osobne pytanie.
Kumulacja

Zmniejszony rozmiar próbki może pochodzić tylko z inną próbką. Inna próbka może zatem wykazywać inną kowariancję. Ale ponieważ kowariancja próbki jest definiowana jako średnia, wielkość próby jest zasadniczo skalowana.
Nick Cox,

5

Definicja kowariancji i to . Wyrażenie w tym wzorze jest scentralizowaną wersja . Więc już wyśrodkowujemy gdy bierzemy kowariancję, a centrowanie jest operatorem idempotentnym; po wyśrodkowaniu zmiennej dalsze stosowanie procesu centrowania nie zmienia jej. Gdyby formuła nie przyjęła wyśrodkowanych wersji zmiennych, wystąpiłyby wszelkiego rodzaju dziwne efekty, takie jak kowariancja między temperaturą a inną zmienną, która różni się w zależności od tego, czy mierzymy temperaturę w stopniach Celsjusza czy Kelvina.XYE[(XE[X])(YE[Y])]XE[X]XX


3

„gdzieś” jest raczej nierzetelnym źródłem ...

Kowariancja / korelacja są zdefiniowane z wyraźnym centrowaniem . Jeśli nie wyśrodkujesz danych, nie będziesz obliczać kowariancji / korelacji. (Dokładnie: korelacja Pearsona)

Główna różnica polega na tym, czy wyśrodkowujesz na podstawie modelu teoretycznego (np. Oczekiwana wartość powinna wynosić dokładnie 0), czy na podstawie danych (średnia arytmetyczna). Łatwo zauważyć, że średnia arytmetyczna da mniejszą kowariancję niż jakiekolwiek inne centrum.

Jednak mniejsza kowariancja nie oznacza mniejszej korelacji lub wręcz przeciwnie. Załóżmy, że mamy dane X = (1,2) i Y = (2,1). Łatwo zauważyć, że przy arytmetycznym średnim centrowaniu da to idealnie ujemną korelację, a jeśli wiemy, że proces generowania generuje średnio 0, dane są faktycznie dodatnio skorelowane. W tym przykładzie skupiamy się - ale z teoretyczną oczekiwaną wartością 0.

Może to powstać łatwo. Rozważmy, że mamy matrycę czujników 11x11 z komórkami ponumerowanymi od -5 do +5. Zamiast brać średnią arytmetyczną, sensownym jest użycie tutaj „fizycznej” średniej naszej matrycy czujników, gdy szukamy korelacji zdarzeń czujnika (jeśli policzymy komórki od 0 do 10, użyjemy 5 jako stałej stałej, i otrzymalibyśmy dokładnie takie same wyniki, aby wybór indeksowania zniknął z analizy - fajnie).


Dzięki @ Anony-Mousse, czy kowariancja próby będzie zależeć od wielkości próby? Tzn. Mniejsza wielkość próbki da mniejszą kowariancję (przed centrowaniem).
lvdp

1
Oczywiście zależy od próbki. Średnio - nie wiem. Spodziewałbym się, że mniejsze próbki będą miały większą zmienność, więc może częściej bardziej ekstremalne wartości. Ale to tylko intuicja.
Ma ZAKOŃCZENIE - Anony-Mousse
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.