Estymatory maksymalnego prawdopodobieństwa - wielowymiarowy gaussowski

Kontekst

Wielowymiarowy gaussowski pojawia się często w uczeniu maszynowym, a następujące wyniki są używane w wielu książkach i kursach ML bez pochodnych.

Biorąc pod uwagę dane w postaci macierzy o wymiarach , jeżeli założymy, że dane są zgodne ze zmiennym rozkładem Gaussa zmiennym o parametrach średnia ( ) i macierz kowariancji ( ) estymatory maksymalnego prawdopodobieństwa są podane przez: $\mathbf{X}$ $m \times p$ $p$ $\mu$ $p \times 1$ $\Sigma$ $p \times p$

$\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}}$

$\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T$

Rozumiem, że znajomość wielowymiarowego gaussowskiego jest warunkiem wstępnym wielu kursów ML, ale dobrze byłoby mieć pełne wyprowadzenie w samodzielnej odpowiedzi raz na zawsze, ponieważ uważam, że wielu samokształceniowych podskakuje wokół statystyk. strony stackexchange i math.stackexchange szukają odpowiedzi.

Pytanie

Jakie jest pełne wyprowadzenie estymatorów maksymalnego prawdopodobieństwa dla wielowymiarowego Gaussa

Przykłady:

Te uwagi do wykładu (strona 11) na temat liniowej analizy dyskryminacyjnej lub te wykorzystują wyniki i zakładają wcześniejszą wiedzę.

Istnieje również kilka postów, na które częściowo udzielono odpowiedzi lub zamknięto:

— Xavier Bourret Sicotte
źródło

Odpowiedzi:

Wyprowadzanie estymatorów maksymalnego prawdopodobieństwa

Załóżmy, że mamy losowych wektorów, każdy o rozmiarze : gdzie każdy losowy wektor może być interpretowane jako obserwacja (punkt danych) między zmiennymi . Jeśli każdy jest oznaczony jako wielowymiarowe wektory gaussowskie: $m$ $p$ $\mathbf{X^{(1)}, X^{(2)},...,X^{(m)}}$ $p$ $\mathbf{X}^{(i)}$

X^{(ja)} \sim {N.}_{p} (μ, Σ)

$\mathbf{X^{(i)}} \sim \mathcal{N}_p(\mu, \Sigma)$

Gdzie parametry są nieznane. Aby uzyskać ich oszacowanie, możemy zastosować metodę maksymalnego prawdopodobieństwa i zmaksymalizować funkcję prawdopodobieństwa log. $\mu, \Sigma$

Zauważ, że dzięki niezależności losowych wektorów łączna gęstość danych jest iloczynem poszczególnych gęstości , czyli . Biorąc logarytm daje funkcję prawdopodobieństwa log $\mathbf{ \{X^{(i)}}, i = 1,2,...,m\}$ $\prod_{i=1}^m f_{\mathbf{X^{(i)}}}(\mathbf{x^{(i)} ; \mu , \Sigma })$

\begin{aligned} l (μ, Σ | x^{(ja)}) & = \log \prod_{ja = 1}^{m} {fa}_{X^{(ja)}} (x^{(ja)} | μ, Σ) \\ = \log \prod_{ja = 1}^{m} \frac{1}{(2) π)^{p / 2)} | Σ |^{1 / 2)}} \exp (- \frac{1}{2)} (x^{(ja)} - μ)^{T.} Σ^{- 1} (x^{(ja)} - μ)) \\ = \sum_{ja = 1}^{m} (- \frac{p}{2)} \log (2) π) - \frac{1}{2)} \log | Σ | - \frac{1}{2)} (x^{(ja)} - μ)^{T.} Σ^{- 1} (x^{(ja)} - μ)) \end{aligned}

$\begin{aligned} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \log \prod_{i=1}^m f_{\mathbf{X^{(i)}}}(\mathbf{x^{(i)} | \mu , \Sigma }) \\ & = \log \ \prod_{i=1}^m \frac{1}{(2 \pi)^{p/2} |\Sigma|^{1/2}} \exp \left( - \frac{1}{2} \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \right) \\ & = \sum_{i=1}^m \left( - \frac{p}{2} \log (2 \pi) - \frac{1}{2} \log |\Sigma| - \frac{1}{2} \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \right) \end{aligned}$

\begin{aligned} l (μ, Σ;) & = - \frac{m p}{2)} \log (2) π) - \frac{m}{2)} \log | Σ | - \frac{1}{2)} \sum_{ja = 1}^{m} (x^{(ja)} - μ)^{T.} Σ^{- 1} (x^{(ja)} - μ) \end{aligned}

$\begin{aligned} l(\mu, \Sigma ; ) & = - \frac{mp}{2} \log (2 \pi) - \frac{m}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \end{aligned}$

Wyprowadzanie $\hat \mu$

Aby przyjąć pochodną w odniesieniu do i zrównać z zerem, wykorzystamy następującą tożsamość rachunku macierzowego: $\mu$

$\mathbf{ \frac{\partial w^T A w}{\partial w} = 2Aw}$ jesli nie zalezy od i jest symetryczny. $\mathbf{w}$ $\mathbf{A}$ $\mathbf{A}$

\begin{aligned} \frac{\partial}{\partial μ} l (μ, Σ | x^{(ja)}) & = \sum_{ja = 1}^{m} Σ^{- 1} (μ - x^{(ja)}) = 0 \\ Od Σ jest pozytywnie określony \\ 0 & = m μ - \sum_{ja = 1}^{m} x^{(ja)} \\ \hat{μ} & = \frac{1}{m} \sum_{ja = 1}^{m} x^{(ja)} = \bar{x} \end{aligned}

$\begin{aligned} \frac{\partial }{\partial \mu} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \sum_{i=1}^m \mathbf{ \Sigma^{-1} ( \mu - x^{(i)} ) } = 0 \\ & \text{Since $\Sigma$ is positive definite} \\ 0 & = m \mu - \sum_{i=1}^m \mathbf{ x^{(i)} } \\ \hat \mu &= \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} \end{aligned}$

Który jest często nazywany średnim wektorem próbki .

Wyprowadzanie $\hat \Sigma$

Wyznaczenie MLE dla macierzy kowariancji wymaga więcej pracy i zastosowania następujących właściwości algebry liniowej i rachunku różniczkowego:

Śledzenie jest niezmienne przy cyklicznych permutacjach produktów matrycowych: $tr[ACB] = tr[CAB] = tr[BCA]$

Ponieważ jest skalarny, możemy pobrać jego ślad i uzyskać tę samą wartość: $x^TAx$ $x^tAx = tr[x^TAx] = tr[x^txA]$

$\frac{\partial}{\partial A} tr[AB] = B^T$

$\frac{\partial}{\partial A} \log |A| = A^{-T}$

Połączenie tych właściwości pozwala nam obliczyć

\frac{\partial}{\partial A} x^{t} A x = \frac{\partial}{\partial A} t r [x^{T} x A] = [x x^{t}]^{T} = x^{T T} x^{T} = x x^{T}

$\frac{\partial}{\partial A} x^tAx =\frac{\partial}{\partial A} tr[x^TxA] = [xx^t]^T = x^{TT}x^T = xx^T$

Który jest iloczynem zewnętrznym wektora z samym sobą. $x$

Możemy teraz ponownie napisać funkcję log-prawdopodobieństwo i obliczyć pochodną wrt (uwaga jest stała) $\Sigma^{-1}$ $C$

\begin{aligned} l (μ, Σ | x^{(i)}) & = C - \frac{m}{2} \log | Σ | - \frac{1}{2} \sum_{i = 1}^{m} (x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ) \\ = C + \frac{m}{2} \log | Σ^{- 1} | - \frac{1}{2} \sum_{i = 1}^{m} t r [(x^{(i)} - μ) (x^{(i)} - μ)^{T} Σ^{- 1}] \\ \frac{\partial}{\partial Σ^{- 1}} l (μ, Σ | x^{(i)}) & = \frac{m}{2} Σ - \frac{1}{2} \sum_{i = 1}^{m} {(x^{(i)} - μ) (x^{(i)} - μ)}^{T} Since Σ^{T} = Σ \end{aligned}

$\begin{aligned} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \text{C} - \frac{m}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \\ & = \text{C} + \frac{m}{2} \log |\Sigma^{-1}| - \frac{1}{2} \sum_{i=1}^m tr[ \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)^T \Sigma^{-1} } ] \\ \frac{\partial }{\partial \Sigma^{-1}} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \frac{m}{2} \Sigma - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)}^T \ \ \text{Since $\Sigma^T = \Sigma$} \end{aligned}$

Zrównanie zera i rozwiązanie dla $\Sigma$

\begin{aligned} 0 & = m Σ - \sum_{i = 1}^{m} {(x^{(i)} - μ) (x^{(i)} - μ)}^{T} \\ \hat{Σ} & = \frac{1}{m} \sum_{i = 1}^{m} {(x^{(i)} - \hat{μ}) (x^{(i)} - \hat{μ})}^{T.} \end{aligned}

$\begin{aligned} 0 &= m \Sigma - \sum_{i=1}^m \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)}^T \\ \hat \Sigma & = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T \end{aligned}$

Źródła

— Xavier Bourret Sicotte
źródło

Mile widziane są alternatywne dowody, bardziej zwarte formularze lub intuicyjna interpretacja!

— Xavier Bourret Sicotte

W wyprowadzeniu dla , dlaczego musi być pozytywnie określona? Czy to wystarczy, że jest odwracalna? Dla odwracalnej macierzy , tylko wtedy, gdy ?

μ

$\mu$

Σ

$\Sigma$

Σ

$\Sigma$

A

$A$

A x = 0

$Ax=0$

x = 0

$x=0$

— Tom Bennett

Aby wyjaśnić, jest macierzą , która może mieć skończone ukośne i nieprzekątne elementy wskazujące na korelację między wektorami, prawda? Jeśli tak, to w jakim sensie te wektory są niezależne? Dlaczego też łączna funkcja prawdopodobieństwa jest równa prawdopodobieństwu? Czy gęstość łączona, powinna być równa prawdopodobieństwu pomnożonemu przez uprzednią, tj. ?

Σ

$\Sigma$

m \times m

$m \times m$

f (x, y)

$f(x,y)$

f (x | y) f (y)

$f(x|y)f(y)$

— Mathews24,

@TomBennett macierz sigma jest z definicji z definicji dodatnia - dowód znajduje się w stats.stackexchange.com/questions/52976/ ... Tożsamość rachunku macierzowego wymaga, aby macierz była symetryczna, a nie dodatnia. Ale ponieważ pozytywne określone macierze są zawsze symetryczne, to działa

— Xavier Bourret Sicotte

Tak, rzeczywiście - niezależność między obserwacjami pozwala uzyskać prawdopodobieństwo - sformułowanie może być niejasne faie - jest to wielowymiarowa wersja prawdopodobieństwa. Przeor nadal nie ma znaczenia, niezależnie od tego

— Xavier Bourret Sicotte

Alternatywny dowód dla który bierze pochodną bezpośrednio względem : $\widehat{\Sigma}$ $\Sigma$

Podnoszenie z log-prawdopodobieństwo jak wyżej: gdzie i użyliśmy cyklicznych i liniowych właściwości . Aby obliczyć , najpierw to obserwujemy

\begin{array}{rcl} ℓ (μ, Σ) & = & do - \frac{m}{2)} \log | Σ | - \frac{1}{2)} \sum_{ja = 1}^{m} tr [(x^{(ja)} - μ)^{T.} Σ^{- 1} (x^{(ja)} - μ)] \\ = & do - \frac{1}{2)} (m \log | Σ | + \sum_{ja = 1}^{m} tr [(x^{(ja)} - μ) (x^{(ja)} - μ)^{T.} Σ^{- 1}]) \\ = & do - \frac{1}{2)} (m \log | Σ | + tr [{S.}_{μ} Σ^{- 1}]) \end{array}

$\begin{eqnarray} \ell(\mu, \Sigma) &=& C - \frac{m}{2}\log|\Sigma|-\frac{1}{2} \sum_{i=1}^m \text{tr}\left[(\mathbf{x}^{(i)}-\mu)^T \Sigma^{-1} (\mathbf{x}^{(i)}-\mu)\right]\\ &=&C - \frac{1}{2}\left(m\log|\Sigma| + \sum_{i=1}^m\text{tr} \left[(\mathbf{x}^{(i)}-\mu)(\mathbf{x}^{(i)}-\mu)^T\Sigma^{-1} \right]\right)\\ &=&C - \frac{1}{2}\left(m\log|\Sigma| +\text{tr}\left[ S_\mu \Sigma^{-1} \right] \right) \end{eqnarray}$

S_{μ} = \sum_{i = 1}^{m} (x^{(i)} - μ) (x^{(i)} - μ)^{T}

$S_\mu = \sum_{i=1}^m (\mathbf{x}^{(i)}-\mu)(\mathbf{x}^{(i)}-\mu)^T$

tr

$\text{tr}$

\partial ℓ / \partial Σ

$\partial \ell /\partial \Sigma$

\frac{\partial}{\partial Σ} \log | Σ | = Σ^{- T.} = Σ^{- 1}

$\frac{\partial}{\partial \Sigma} \log |\Sigma| = \Sigma^{-T}=\Sigma^{-1}$ przy czwartej właściwości powyżej. Aby wziąć pochodną drugiego terminu, potrzebujemy właściwości, że (z Matrix Cookbook , równanie 63). Stosując to z , otrzymujemy ponieważ zarówno i są symetryczne. Następnie

\frac{\partial}{\partial X} tr (ZA X^{- 1} b) = - (X^{- 1} b ZA X^{- 1})^{T.} .

$\frac{\partial}{\partial X}\text{tr}\left( A X^{-1} B\right) = -(X^{-1}BAX^{-1})^T.$

B = I

$B=I$

\frac{\partial}{\partial Σ} tr [{S.}_{μ} Σ^{- 1}] = - {(Σ^{- 1} {S.}_{μ} Σ^{- 1})}^{T.} = - Σ^{- 1} {S.}_{μ} Σ^{- 1}

$\frac{\partial}{\partial \Sigma}\text{tr}\left[S_\mu \Sigma^{-1}\right] = -\left( \Sigma^{-1} S_\mu \Sigma^{-1}\right)^T = -\Sigma^{-1} S_\mu \Sigma^{-1}$

Σ

$\Sigma$

S_{μ}

$S_\mu$

\frac{\partial}{\partial Σ} ℓ (μ, Σ) \propto m Σ^{- 1} - Σ^{- 1} {S.}_{μ} Σ^{- 1} .

$\frac{\partial}{\partial \Sigma}\ell(\mu, \Sigma) \propto m \Sigma^{-1} - \Sigma^{-1} S_\mu \Sigma^{-1}.$ Ustawienie tego na 0 i przestawienie daje

\hat{Σ} = \frac{1}{m} {S.}_{μ} .

$\widehat{\Sigma} = \frac{1}{m}S_\mu.$

To podejście wymaga więcej pracy niż standardowe stosowanie pochodnych w odniesieniu do i wymaga bardziej skomplikowanej identyfikacji śladu. Uznałem to za przydatne, ponieważ obecnie potrzebuję wziąć pochodne zmodyfikowanej funkcji prawdopodobieństwa, dla której wydaje się, że znacznie trudniej jest użyć niż . $\Lambda = \Sigma^{-1}$ $\partial/{\partial \Sigma^{-1}}$ $\partial/\partial \Sigma$

— Eric Kightley
źródło

Estymatory maksymalnego prawdopodobieństwa - wielowymiarowy gaussowski

Kontekst

Pytanie

Przykłady:

Wyprowadzanie estymatorów maksymalnego prawdopodobieństwa

Wyprowadzanieμ^μ^\hat \mu

WyprowadzanieΣ^Σ^\hat \Sigma

Źródła

Wyprowadzanie $\hat \mu$

Wyprowadzanie $\hat \Sigma$