Wyprowadzanie estymatorów maksymalnego prawdopodobieństwa
Załóżmy, że mamy losowych wektorów, każdy o rozmiarze : gdzie każdy losowy wektor może być interpretowane jako obserwacja (punkt danych) między zmiennymi . Jeśli każdy jest oznaczony jako wielowymiarowe wektory gaussowskie:s x ( 1 ) , x ( 2 ) , . . . , X ( m ) p X ( i )mpX( 1 ), X( 2 ), . . . , X( m )pX( i )
X( i )∼ N.p( μ , Σ )
Gdzie parametry są nieznane. Aby uzyskać ich oszacowanie, możemy zastosować metodę maksymalnego prawdopodobieństwa i zmaksymalizować funkcję prawdopodobieństwa log.μ , Σ
Zauważ, że dzięki niezależności losowych wektorów łączna gęstość danych jest iloczynem poszczególnych gęstości , czyli . Biorąc logarytm daje funkcję prawdopodobieństwa log∏ m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){ X( i ), I = 1 , 2 , . . . , m }∏mi = 1faX( i )( x( i ); μ , Σ )
l ( μ , Σ | x( i ))= log∏i = 1mfaX( i )( x( i )|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l ( μ , Σ ; )= - mp2)log( 2 π) - m2)log| Σ | - 12)∑i = 1m( x( i )- μ)T.Σ- 1( x( i )- μ )
Wyprowadzanieμ^
Aby przyjąć pochodną w odniesieniu do i zrównać z zerem, wykorzystamy następującą tożsamość rachunku macierzowego:μ
wAA∂wT.A w∂w= 2 A w jesli
nie zalezy od i jest symetryczny.wZAZA
∂∂μl ( μ , Σ | x( i ))0μ^= ∑i = 1mΣ- 1( μ - x( i )) =0Ponieważ Σ jest pozytywnie określone= m μ - ∑i = 1mx( i )= 1m∑i = 1mx( i )= x¯
Który jest często nazywany średnim wektorem próbki .
WyprowadzanieΣ^
Wyznaczenie MLE dla macierzy kowariancji wymaga więcej pracy i zastosowania następujących właściwości algebry liniowej i rachunku różniczkowego:
- Śledzenie jest niezmienne przy cyklicznych permutacjach produktów matrycowych:t r [ A CB ] = t r [ CA B ] = t r [ B CA ]
- Ponieważ jest skalarny, możemy pobrać jego ślad i uzyskać tę samą wartość:x t A x = t r [ x T A x ] = t r [ x t x A ]xT.AxxtA x = t r [ xT.A x ] = t r [ xtx A ]
- ∂∂ZAtr[AB]=BT
- ∂∂Alog|A|=A−T
Połączenie tych właściwości pozwala nam obliczyć
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Który jest iloczynem zewnętrznym wektora z samym sobą.x
Możemy teraz ponownie napisać funkcję log-prawdopodobieństwo i obliczyć pochodną wrt (uwaga jest stała) ° CΣ−1C
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Zrównanie zera i rozwiązanie dlaΣ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
Źródła