Wariancja iloczynu skorelowanych zmiennych losowych k

Jaka jest wariancja iloczynu skorelowanych zmiennych losowych ? $k$

variance random-variable

— Jafar Mansouri
źródło

Odpowiedzi:

Więcej informacji na ten temat, niż zapewne potrzebujesz, można znaleźć w Goodman (1962): „Wariancja iloczynu zmiennych losowych K” , która wyprowadza wzory zarówno dla niezależnych zmiennych losowych, jak i potencjalnie skorelowanych zmiennych losowych, wraz z pewnymi przybliżeniami. We wcześniejszym artykule ( Goodman, 1960 ) wyprowadzono wzór na iloczyn dokładnie dwóch zmiennych losowych, który jest nieco prostszy (choć nadal dość gnarny), więc może to być lepsze miejsce na rozpoczęcie, jeśli chcesz zrozumieć pochodną .

Jednak dla kompletności wygląda to tak.

Dwie zmienne

Załóż, że:

$x$ i są dwie wartości losowych $y$
$X$ i są ich (niezerowymi) oczekiwaniami $Y$
$V(x)$ i to ich wariancje $V(y)$
$\delta_x = (x-X)/X$ (i podobnie dla ) $\delta_y$
$D_{i,j} = E \left[ (\delta_x)^i (\delta_y)^j\right]$
$\Delta_x = x-X$ (i podobnie dla ) $\Delta_y$
$E_{i,j} = E\left[(\Delta_x)^i (\Delta_y)^j\right]$
$G(x)$ jest kwadratowym współczynnikiem zmienności: (podobnie dla ) $V(x)/X^2$ $G(Y)$

Następnie: lub równoważnie:

V. (x y) = (X Y)^{2)} [sol (y) + sol (x) + 2) {re}_{1, 1} + 2) {re}_{1, 2)} + 2) {re}_{2), 1} + {re}_{2), 2)} - {re}_{1, 1}^{2)}]

$V(xy) = (XY)^2[G(y) + G(x) + 2D_{1,1} + 2D_{1,2} + 2D_{2,1} + D_{2,2} - D_{1,1}^2]$

V. (x y) = X^{2)} V. (y) + Y^{2)} V. (x) + 2) X Y {mi}_{1, 1} + 2) X {mi}_{1, 2)} + 2) Y {mi}_{2), 1} + {mi}_{2), 2)} - {mi}_{1, 1}^{2)}

$V(xy) = X^2V(y) + Y^2V(x) + 2XYE_{1,1} + 2XE_{1,2} + 2YE_{2,1} + E_{2,2} - E_{1,1}^2$

Więcej niż dwie zmienne

Artykuł z 1960 r. Sugeruje, że jest to ćwiczenie dla czytelnika (które wydaje się motywować artykuł z 1962 r.!).

Notacja jest podobna, z kilkoma rozszerzeniami:

$(x_1, x_2, \ldots x_n)$ są zmiennymi losowymi zamiast i $x$ $y$
$M = E\left( \prod_{i=1}^k x_i \right)$
$A = \left(M / \prod_{i=1}^k X_i\right) - 1$
$s_i$ = 0, 1 lub 2 dla $i = 1, 2, \ldots k$
$u$ = liczba 1 w $(s_1, s_2, \ldots s_k)$
$m$ = liczba 2 $(s_1, s_2, \ldots s_k)$
$D(u,m) = 2^u - 2$ dla i dla , $m=0$ $2^u$ $m>1$
$C(s_1, s_2, \ldots, s_k) = D(u,m) \cdot E \left( \prod_{i=1}^k \delta_{x_i}^{s_i} \right)$
$\sum_{s_1 \cdots s_k}$ oznacza sumę zestawów gdzie $3^k - k -1$ $(s_1, s_2, \ldots s_k)$ $2m + u > 1$

Wreszcie, w końcu:

V. (\prod_{i = 1}^{k} x_{ja}) = \prod X_{ja}^{2)} (\sum_{s_{1} \dots s_{k}} do (s_{1}, s_{2)} \dots s_{k}) - {ZA}^{2)})

$V\left(\prod_{i=1}^k x_i\right) = \prod X_i^2 \left( \sum_{s_1 \cdots s_k} C(s_1, s_2 \ldots s_k) - A^2\right)$

Zobacz dokumenty, aby uzyskać szczegółowe informacje i nieco łatwiejsze przybliżenia!

— Matt Krause
źródło

pamiętaj, że powyższa odpowiedź Matta Krause zawiera błąd, a także sam papier. W definicji funkcji C (s1, ..., sk) powinien to być produkt zamiast sumy.

— Nicolas Gisler,

Czy mógłbyś rozwinąć trochę więcej ...? „Ponieważ ja - anonimowa osoba z Internetu - tak mówię” nie jest tak naprawdę odpowiedzią ...

— Tim

Jeśli spróbujesz uzyskać wariancję var (x * y) dla niezależnych zmiennych losowych, za pomocą wzoru na dowolne k możesz zobaczyć, że tylko iloczyn, a nie suma, daje poprawną odpowiedź. Ponadto, jeśli spojrzysz na papier, możesz go również zobaczyć, na stronie 59 papieru (przynajmniej w mojej wersji) użył produktu zamiast sumy.

— Nicolas Gisler,

W przypadku dwóch zmiennych losowych w tej odpowiedzi @macro można znaleźć łatwiejszą do odczytania formułę wariancji iloczynu dwóch skorelowanych zmiennych losowych . Ta odpowiedź wskazuje również na zasadniczy problem w a mianowicie gąszcz notacji kryje zasadniczy fakt, że istnieją w nim terminy, których wartości nie można ustalić, chyba że znamy cov lub wystarczająco o gęstości połączenia dwóch zmiennych losowych, aby określić tę wielkość.

V (x y) = X^{2} V (y) + Y^{2} V (x) + 2 X Y E_{1, 1} + 2 X E_{1, 2} + 2 Y E_{2, 1} + E_{2, 2} - E_{1, 1}^{2},

$V(xy) = X^2V(y) + Y^2V(x) + 2XYE_{1,1} + 2XE_{1,2} + 2YE_{2,1} + E_{2,2} - E_{1,1}^2,$

(x^{2}, y^{2})

$(x^2,y^2)$

— Dilip Sarwate

Sugestia edycyjna, która naprawdę powinna być komentarzem, sugerowała, że oryginalny tekst zawierał literówkę, w której suma i produkt zostały pomieszane i ta odpowiedź powinna zostać zmieniona. Zobacz stats.stackexchange.com/review/suggested-edits/83662

— Silverfish,

Wystarczy dodać do niesamowitej odpowiedzi Matta Krause'a (w rzeczywistości łatwo stąd ją uzyskać). Jeśli x, y są niezależne, to

\begin{aligned} {mi}_{1, 1} & = mi [(x - mi [x]) (y - mi [y])] = do o v (x, y) = 0 \\ {mi}_{1, 2)} & = mi [(x - mi [x]) (y - mi [y])^{2)}] \\ = mi [x - mi (x)] mi [(y - mi [y])^{2)}] \\ = (mi [x] - mi [x]) mi [(y - mi [y])^{2)}] = 0 \\ {mi}_{2), 1} & = 0 \\ {mi}_{2), 2)} & = mi [(x - mi [x])^{2)} (y - mi [y])^{2)}] \\ = mi [(x - mi [x])^{2)}] mi [(y - mi [y])^{2)} \\ = V. [x] V. [y] \\ V. [x y] & = mi [x]^{2)} V. [y] + mi [y]^{2)} V. [x] + V. [x] V. [y] \end{aligned}

$\begin{equation*} \begin{split} E_{1,1} &= E[(x-E[x])(y-E[y])] = Cov(x,y) = 0\\ E_{1,2} &= E[(x-E[x])(y-E[y])^2] \\ &= E[x-E(x)]E[(y-E[y])^2] \\ &= (E[x]-E[x])E[(y-E[y])^2]=0\\ E_{2,1} &= 0\\ E_{2,2} &= E[(x-E[x])^2(y-E[y])^2]\\ &= E[(x-E[x])^2]E[(y-E[y])^2\\ &= V[x]V[y]\\ V[xy] &= E[x]^2 V[y] + E[y]^2 V[x] + V[x]V[y] \end{split} \end{equation*}$

— Ananda
źródło

Wynik dla przypadku niezależnych zmiennych losowych zostało omówione tutaj .

n

$n$

— Dilip Sarwate

Oprócz ogólnej formuły podanej przez Matta warto zauważyć, że istnieje nieco bardziej wyraźna formuła dla losowych zmiennych Gaussa o średniej zerowej. Wynika to z twierdzenia Isserlisa , patrz także Wyższe momenty dla wyśrodkowanego wielowymiarowego rozkładu normalnego.

Załóżmy, że ma wielowymiarowy rozkład normalny ze średnią 0 i macierzą kowariancji . Jeśli liczba zmiennych jest nieparzysta, i gdzie oznacza sumę na wszystkich partycjach w rozłącznych par gdzie każdy termin jest produktem odpowiednich i gdzie $(x_1, \ldots, x_k)$ $\Sigma$ $k$ $E\left(\prod_i x_i\right) = 0$

V. (\prod_{ja} x_{ja}) = mi (\prod_{ja} x_{ja}^{2)}) = \sum \prod {\tilde{Σ}}_{ja, jot}

$V\left(\prod_i x_i\right) = E\left( \prod_i x_i^2\right) = \sum \prod \tilde{\Sigma}_{i,j}$

Σ \prod

$\Sigma \prod$

{1, \dots, 2 k}

$\{1, \ldots, 2k\}$

k

$k$

{i, j}

$\{i, j\}$

k

$k$

{\tilde{Σ}}_{i, j}

$\tilde{\Sigma}_{i,j}$

\tilde{Σ} = (\begin{array}{cc} Σ & Σ \\ Σ & Σ \end{array})

$\tilde{\Sigma} = \left( \begin{array}{cc} \Sigma & \Sigma \\ \Sigma & \Sigma \end{array} \right)$ to macierz kowariancji dla . Jeśli jest parzyste, W przypadku otrzymujemy Jeśli , otrzymujemy gdzie w sumie jest 15 wyrażeń.

(x_{1}, \dots, x_{k}, x_{1}, \dots, x_{k})

$(x_1, \ldots, x_k, x_1, \ldots, x_k)$

k

$k$

V. (\prod_{ja} x_{ja}) = \sum \prod {\tilde{Σ}}_{ja, jot} - {(\sum \prod Σ_{ja, jot})}^{2)} .

$V\left(\prod_i x_i\right) = \sum \prod \tilde{\Sigma}_{i,j} - \left(\sum \prod \Sigma_{i,j}\right)^2.$

k = 2

$k = 2$

V. (x_{1} x_{2)}) = Σ_{1, 1} Σ_{2), 2)} + 2) (Σ_{1, 2)})^{2)} - Σ_{1, 2)}^{2)} = Σ_{1, 1} Σ_{2), 2)} + (Σ_{1, 2)})^{2)} .

$V(x_1x_2) = \Sigma_{1,1} \Sigma_{2,2} + 2 (\Sigma_{1,2})^2 - \Sigma_{1,2}^2 = \Sigma_{1,1} \Sigma_{2,2} + (\Sigma_{1,2})^2.$

k = 3

$k = 3$

V. (x_{1} x_{2)} x_{3)}) = \sum Σ_{ja, jot} Σ_{k, l} Σ_{r, t},

$V(x_1x_2x_3) = \sum \Sigma_{i,j}\Sigma_{k,l}\Sigma_{r,t},$

W rzeczywistości możliwe jest wdrożenie ogólnej formuły. Najtrudniejszą częścią wydaje się być obliczenie wymaganych partycji. W R można to zrobić za pomocą funkcji setpartsz pakietu partitions. Za pomocą tego pakietu nie było problemu z wygenerowaniem 2 027 025 partycji dla , 34 459 425 partycji dla można również wygenerować, ale nie 654 729 075 partycji dla (na moim laptopie 16 GB). $k = 8$ $k = 9$ $k = 10$

Warto zwrócić uwagę na kilka innych rzeczy. Po pierwsze, dla zmiennych Gaussa o niezerowej wartości powinno być możliwe wyprowadzenie wyrażenia również z twierdzenia Isserlisa. Po drugie, nie jest dla mnie jasne, czy powyższy wzór jest odporny na odchylenia od normalności, to znaczy, czy można go zastosować jako przybliżenie, nawet jeśli zmienne nie są wielowymiarowe normalnie rozłożone. Po trzecie, chociaż powyższe formuły są prawidłowe, wątpliwe jest, jak wiele wariancji mówi o dystrybucji produktów. Nawet dla rozkład produktu jest dość leptokurtyczny, a dla większego szybko staje się wyjątkowo leptokurtyczny. $k = 2$ $k$

— NRH
źródło

Zgrabne podejście! Jeśli chodzi o to, co jest warte, formuła w mojej odpowiedzi ma również kombinatoryczny wysadzenie: sumowanie nad C obejmuje sumowanie wyrażeń .

O (3^{k})

$O(3^k)$

— Matt Krause,