Rozkład odległości Mahalanobisa na poziomie obserwacji

Jeśli mam wielowymiarową normalną próbkę iid i zdefiniuję (który jest rodzajem odległości Mahalanobisa [kwadrat] od punktu próbki do wektora przy użyciu macierzy do ważenia), jaki jest rozkład (odległość Mahalanobisa do średnia próbki przy użyciu przykładowej macierzy kowariancji )? $X_1, \ldots, X_n \sim N_p(\mu,\Sigma)$

d_{i}^{2} (b, A) = (X_{i} - b)^{'} A^{- 1} (X_{i} - b)

$d_i^2(b,A) = (X_i - b)' A^{-1} (X_i - b)$

a

$a$

A

$A$

d_{i}^{2} (\bar{X}, S)

$d_i^2(\bar X,S)$

\bar{X}

$\bar X$

S

$S$

Patrzę na artykuł, który twierdzi, że jest to , ale jest to oczywiście błędne: zostałby uzyskany dla przy użyciu (nieznanego) średniego wektora populacji i macierz kowariancji. Po podłączeniu przykładowych analogów należy uzyskać rozkład Hotelling lub skalowany rozkład lub coś w tym rodzaju, ale nie . Nie mogłem znaleźć dokładnego wyniku ani w Muirhead (2005) , ani w Anderson (2003) , ani w Mardii, Kent i Bibby (1979, 2003) $\chi^2_p$ $\chi^2_p$ $d_i^2(\mu,\Sigma)$ $T^{\ 2}$ $F(\cdot)$ $\chi^2_p$ . Najwyraźniej ci faceci nie zawracali sobie głowy diagnostyką wartości odstających, ponieważ rozkład normalny na wielu odmianach jest idealny i można go łatwo uzyskać za każdym razem, gdy zbiera się dane na wielu odmianach: - /.

Sprawy mogą być bardziej skomplikowane. Wynik rozkładu Hotelling opiera się na założeniu niezależności między częścią wektorową a częścią macierzową; Taka niezależność zachodzi dla i , ale to już nie zachodzi dla i . $T^{\ 2}$ $\bar X$ $S$ $X_i$ $S$

multivariate-analysis outliers

— StasK
źródło

Czy w definicji nadal postrzegasz jako zmienną losową, czy traktujesz ją jako stały wektor? Dołączenie indeksu dolnego sugeruje to drugie, ale wydaje się to trochę dziwne.

d_{i}^{2}

$d_i^2$

X_{i}

$X_i$

— whuber

Tylko trochę nietypowa uwaga, ale zauważ, że jest pomocniczy w odniesieniu do i jest równy stałej stałej ( powinien być lub podobny, myślę) prawie na pewno.

X_{i} - \bar{X}

$X_i - \bar{X}$

μ

$\mu$

\sum_{i} d_{i}^{2} (\bar{X}, S)

$\sum_i d_i^2(\bar{X},S)$

n - p

$n-p$

— kardynał

@ whuber - być może, aby podkreślić, że oblicza się go na podstawie obserwacji z próbki, a nie nowej obserwacji?

— jbowman

@ whuber, w przybliżeniu zgodnie z tym, co powiedział jbowman - aby wskazać, że jest to statystyka na poziomie obserwacji (w przeciwieństwie do statystyki na poziomie próby, jak średnia próbki).

— StasK

Rozkład

jest beta,

, ale wciąż szukam rozkładu

d_{i}^{2} (\bar{X}, S)

$d_i^2(\bar X,S)$

n / (n - 1)^{2} d_{i}^{2} (\bar{X}, S) \sim B (p / 2, (n - p - 1) / 2)

$n/(n-1)^2 d_i^2(\bar X,S) \sim B(p/2, (n-p-1)/2)$

d_{i}^{2} (μ, S)

$d^2_i(\mu, S)$ . Rozkłady

nie są niezależne.

d_{i}^{2}

$d^2_i$

Odpowiedzi:

Sprawdź modelowanie mieszanki gaussowskiej poprzez wykorzystanie odległości Mahalanobisa ( link alternatywny ). Patrz strona nr 13, druga kolumna. Autorzy dali również dowód na wyprowadzenie dystrybucji. Dystrybucja jest skalowana w wersji beta. Daj mi znać, jeśli to nie zadziała. W przeciwnym razie mógłbym jutro sprawdzić każdą wskazówkę w książce SS Wilks.

— vinux
źródło

Odpowiedź podana w artykule to:

. Dzięki!

\frac{n}{(n - 1)^{2}} d_{i}^{2} (\bar{X}, S) \sim B (\frac{p}{2}, \frac{n - p - 1}{2})

$\frac{n}{(n-1)^2} d_i^2(\bar X, S) \sim B(\frac{p}{2}, \frac{n-p-1}{2} )$

— StasK

Istnieją 3 odpowiednie rozkłady. Jak już wspomniano, gdy prawdziwe parametrów populacji są stosowane jest to rozkład chi-kwadrat z . Jest to również rozkład asymptotyczny z oszacowanymi parametrami i dużą wielkością próby. $df=p$

Inna odpowiedź podaje poprawny rozkład dla najczęstszej sytuacji, z oszacowanymi parametrami, gdy sama obserwacja jest częścią zestawu oszacowań: Jednakże, jeśli obserwacjajest niezależna od oceny parametrów, to rozkład jest proporcjonalna do dystrybucji F stosunek Fishera:

\frac{n (d^{2})}{(n - 1)^{2}} \sim B e t a (\frac{p}{2}, \frac{(n - p - 1)}{2}) .

$\frac{n(d^2)}{(n-1)^2} \sim Beta\left(\frac{p}{2}, \frac{(n-p-1)}{2}\right).$

x_{i}

$x_i$

(\frac{n d^{2} (n - p)}{(p (n - 1) (n + 1)}) \sim F (p, n - p)

$\left(\frac{nd^2(n-p)}{(p(n-1)(n+1)}\right) \sim F(p, n-p)$

— Joe Sullivan
źródło

L A T E X

$\LaTeX$

czy możesz podać odniesienie do wzoru F.

— eyaler

jeden odnośnik, sekcja 3 w Hardin, Johanna i David M. Rocke. 2005. „Rozkład dużych odległości”. Journal of Obliczeniowe i graficzne statystyki 14 (4): 928–46. doi: 10.1198 / 106186005X77685.

— Josef,