Jakie są techniki próbkowania dwóch skorelowanych zmiennych losowych?

Jakie są techniki próbkowania dwóch skorelowanych zmiennych losowych:

jeśli ich rozkłady prawdopodobieństwa są sparametryzowane (np. log-normal)
jeśli mają rozkłady nieparametryczne.

Dane są dwoma szeregami czasowymi, dla których możemy obliczyć niezerowe współczynniki korelacji. Chcemy symulować te dane w przyszłości, zakładając, że historyczna korelacja i szeregi czasowe CDF są stałe.

W przypadku (2) analogiem 1-D byłoby skonstruowanie CDF i pobranie z niego próbki. Myślę, że mógłbym zbudować CDF 2-D i zrobić to samo. Zastanawiam się jednak, czy istnieje sposób na zbliżenie się przy użyciu pojedynczych CDF-ów 1-D i jakoś powiązać wybory.

Dzięki!

— Pete
źródło

Łączenie CDF 1-D przypomina mi kopuły . Nie jestem pewien, czy przydadzą ci się.

— onestop

Odpowiedzi:

Myślę, że szukasz kopuły. Masz dwie dystrybucje brzeżne (określone przez cdfs parametryczne lub empiryczne), a teraz chcesz określić zależność między nimi. W przypadku dwuwymiarowym istnieje wiele możliwości wyboru, ale podstawowy przepis jest taki sam. Dla ułatwienia interpretacji użyję kopuły Gaussa.

Aby wyciągnąć z kopuły Gaussa z macierzą korelacji $C$

Rysuj $(Z=(Z_1, Z_2)\sim N(0, C)$
Ustaw dla (z standardowym normalnym cdf). Teraz , ale są zależne. $U_i = \Phi(Z_i)$ $i=1, 2$ $\Phi$ $U_1, U_2\sim U[0,1]$
$Y_i = F_i^{-1}(U_i)$ $F_i^{-1}$ $i$ $Y_i$

Voila! Wypróbuj kilka prostych przypadków i spójrz na marginesy histogramów i scatterpolots, to zabawne.

Nie ma jednak gwarancji, że jest to odpowiednie dla konkretnego zastosowania (w szczególności może być konieczne zastąpienie kopuły gaussowskiej kopulą at w kopule), ale to powinno zacząć. Dobrym źródłem informacji na temat modelowania kopuły jest Nelsen (1999), An Introduction to Copulas , ale jest też kilka całkiem dobrych wprowadzeń online.

— JMS
źródło

+1 Nelsen jest dość czytelny. Kopię kupiłem kilka lat temu, nawet po przejrzeniu wielu materiałów online.

— whuber

Znalazłem świetny artykuł z samouczkiem i towarzyszący mu arkusz kalkulacyjny: behan.ws/copula.pdf i soa.org/files/xls/rsrch-copula-ex.xls

— Pete

@Pete, papier jest naprawdę fajny. Z drugiej strony link do arkusza kalkulacyjnego nie działa

— Boris Gorelik,

Wygląda na to, że najnowsze wersje Mathematica i Matlab mają już wbudowane funkcje obsługujące taki problem?

— LCFactorization

co zrobić, jeśli chcę to samo z kopulą plackett? czy istnieje związek między kopulą normalną a placketową?

— fedvasu

$X_1 \sim Y+Z$ $X_2 \sim W+Z$ $Z$ $U$ $(1-U)$

Trzecią popularną metodą jest (NORTA) NORmal To Anything ; generują skorelowane zmienne normalne, przekształcają je w jednolite zmienne losowe poprzez ocenę ich odpowiednich plików cdf, a następnie wykorzystują te „nowe” jednolite zmienne losowe jako źródło losowości w generowaniu losowań z nowego rozkładu.

Oprócz metody kopuły (całej klasy metod) wspomnianej w innym poście, możesz także próbkować z maksymalnego rozkładu sprzężenia, który jest podobny duchem do metody kopuły. Określasz rozkłady krańcowe i próbkę z maksymalnego sprzężenia. Dokonuje się tego poprzez 2 kroki akceptacji-odrzucenia, jak opisano tutaj Pierre Jacob . Przypuszczalnie tę metodę można rozszerzyć na wymiary większe niż 2, ale jej osiągnięcie może być bardziej skomplikowane. Zauważ, że maksymalne sprzężenie indukuje korelację, która zależy od wartości parametrów marginalnych, zobacz ten post jako dobry przykład tego w odpowiedzi Xi'ana na moje pytanie.

Jeśli chcesz zaakceptować przybliżone (w większości przypadków) próbki, wówczas techniki MCMC są również opcją próbkowania z rozkładów wielowymiarowych.

Można również użyć metod akceptacji-odrzucenia , ale zazwyczaj trudno jest znaleźć dominującą gęstość do pobrania próbki i ocenić stosunek tej gęstości do pożądanej gęstości.

To są wszystkie dodatkowe metody, które mogę wymyślić, ale prawdopodobnie jest kilka, których mi brakowało.

— Lucas Roberts
źródło