Jak działa wzór na generowanie skorelowanych zmiennych losowych?


19

Jeśli mamy 2 normalne, nieskorelowane zmienne losowe , możemy utworzyć 2 skorelowane zmienne losowe o wzorzeX1,X2

Y=ρX1+1ρ2X2

i następnie będzie miał korelacji z .ρ X 1YρX1

Czy ktoś może wyjaśnić, skąd pochodzi ta formuła?


1
Obszerna dyskusja na temat tego i powiązanych zagadnień pojawia się w mojej odpowiedzi na stronie stats.stackexchange.com/a/71303 . Między innymi wyjaśnia to, że (1) założenie Normalności jest nieistotne i (2) należy przyjąć dodatkowe założenia: wariancje i muszą być równe, aby korelacja z była . X 2 Y X 1 ρX1X2YX1ρ
whuber

Bardzo interesujący link. Nie jestem pewien, czy rozumiem, co rozumiesz przez normalność jako nieistotną. Jeśli lub nie jest normalne, trudniej jest kontrolować gęstość za pomocą algorytmu Kaiser-Dickman. Jest to cały powód, dla którego wyspecjalizowane algorytmy generują niestandardowe skorelowane dane (np. Headrick, 2002; Ruscio i Kaczetow, 2008; Vale i Maurelli, 1983) Na przykład wyobraź sobie, że Twoim celem jest wygenerowanie ~ normal, ~ uniform , z = .5. Użycie munduru ~ powoduje, że nie jest jednolite ( kończy się na liniowej kombinacji normalnej i jednolitej). X 2 Y X Y ρ X 2 Y YX1X2YXYρX2YY
Anthony

@Anthony Pytanie dotyczy tylko korelacji , która jest wyłącznie funkcją pierwszej i drugiej chwili. Odpowiedź nie zależy od żadnych innych właściwości dystrybucji. To, o czym dyskutujesz, to zupełnie inny temat.
whuber

Odpowiedzi:


17

Załóżmy, że chcesz znaleźć liniową kombinację i taką, żeX 2X1X2

corr(αX1+βX2,X1)=ρ

Zauważ, że jeśli pomnożysz zarówno i przez tę samą (niezerową) stałą, korelacja się nie zmieni. Dlatego dodamy warunek zachowania wariancji:β var ( α X 1 + β X 2 ) = var ( X 1 )αβvar(αX1+βX2)=var(X1)

Jest to równoważne z

ρ=cov(αX1+βX2,X1)var(αX1+βX2)var(X1)=αcov(X1,X1)=var(X1)+βcov(X2,X1)=0var(αX1+βX2)var(X1)=αvar(X1)α2var(X1)+β2var(X2)

Zakładając, że obie zmienne losowe mają tę samą wariancję (jest to kluczowe założenie!) ( ), otrzymujemyvar(X1)=var(X2)

ρα2+β2=α

Istnieje wiele rozwiązań tego równania, więc czas przypomnieć warunek zachowania wariancji:

var(X1)=var(αX1+βX2)=α2var(X1)+β2var(X2)α2+β2=1

I to nas prowadzi

α=ρβ=±1ρ2

UPD . W odniesieniu do drugiego pytania: tak, nazywa się to wybielaniem .


9

Równanie jest uproszczoną dwuwymiarową postacią rozkładu Choleskiego . To uproszczone równanie jest czasem nazywane algorytmem Kaiser-Dickman (Kaiser i Dickman, 1962).

Zauważ, że i muszą mieć tę samą wariancję, aby ten algorytm działał poprawnie. Ponadto algorytm jest zwykle używany z normalnymi zmiennymi. Jeśli lub nie są normalne, może nie mieć takiej samej formy dystrybucyjnej jak .X 2 X 1 X 2 Y X 2X1X2X1X2YX2

Bibliografia:

Kaiser, HF i Dickman, K. (1962). Macierze wyników próby i populacji oraz macierze korelacji próbki z dowolnej macierzy korelacji populacji. Psychometrika, 27 (2), 179–182.


2
Przypuszczam, że nie potrzebujesz standardowych zmiennych normalnych, wystarczy mieć tę samą wariancję.
Artem Sobolev,

2
Nie, dystrybucja jest nie mieszanina dystrybucja jak twierdzisz. Y
Dilip Sarwate,

Punkt wzięty, @Dilip Sarwate. Jeśli lub jest nienormalny, wówczas staje się liniową kombinacją dwóch zmiennych, które mogą nie dać pożądanego rozkładu. To jest powód dla wyspecjalizowanych algorytmów (zamiast Kaiser-Dickman) do generowania niestandardowych skorelowanych danych. X 2 YX1X2Y
Anthony

3

Współczynnik korelacji to między dwiema seriami, jeśli są one traktowane jako wektory (gdzie punkt danych jest wymiarem wektora). Powyższa formuła po prostu tworzy rozkład wektora na jego komponenty , (w odniesieniu do ). jeśli , to .n t h n t h cos θ s i n θ X 1 , X 2 ρ = c o s θ cosnthnthcosθsinθX1,X2
ρ=cosθ1ρ2=±sinθ

Ponieważ jeśli są nieskorelowane, kąt między nimi jest kątem prostym (tzn. Można je uznać za ortogonalne, aczkolwiek nienormalizowane wektory podstawowe).X1,X2


2
Witamy na naszej stronie! Wierzę, że twój post zyska więcej uwagi, jeśli zaznaczysz wyrażenia matematyczne za pomocą : umieść je między znakami dolara. Podczas edycji dostępna jest pomoc. TEX
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.