Istnieje subtelne, ale ciężkie nadużycie zapisu, które powoduje, że wiele kroków jest mylących. Zajmijmy się tym problemem, wracając do definicji mnożenia macierzy, transpozycji, śladów i pochodnych. Dla tych, którzy chcą pominąć wyjaśnienia, wystarczy przejść do ostatniej części „Składanie wszystkiego razem”, aby zobaczyć, jak krótka i prosta może być rygorystyczna demonstracja.
Notacja i pojęcia
Wymiary
Aby wyrażenie miała sens, gdy jest macierzą , musi być macierzą (kwadratową) , a musi być macierzą , skąd iloczynem jest macierz. Aby pobrać ślad (który jest sumą elementów ukośnych, nazwa ), a następnie , czyniąc kwadratową macierzą.A m × n B n × n C m × p m × p Tr ( X ) = ∑ i X i i p = m CABA′CAm×nBn×nCm×pm×pTr(X)=∑iXiip=mC
Pochodne
Oznaczenie „ ” pojawia się w odniesieniu do pochodnej wyrażenia względem . Zwykle, różnicowanie jest to operacja wykonywana w funkcji . Pochodna w punkcie jest przekształcenie liniowe . Po wybraniu zasad dla tych przestrzeni wektorowych transformacja taka może być reprezentowana jako macierz Nie o to chodzi w tym przypadku! A f : R N → R M x ∈ R N D f ( x ) : R N → R M M × N∇AAf:RN→RMx∈RNDf(x):RN→RMM×N
Macierze jako wektory
Zamiast tego jest uważany za element : jego współczynniki są rozwijane (zwykle albo rząd po rzędzie lub kolumna po kolumnie) do wektora o długości . Funkcja ma rzeczywiste wartości, skąd . W związku z tym musi być macierzą : to wektor wiersza reprezentujący formę liniową na . Jednak obliczenia w pytaniu wykorzystują inny sposób reprezentowania form liniowych: ich współczynniki są zwijane z powrotem do macierzy .R m n N = m n f ( A ) = Tr ( A B A ′ C ) M = 1 D f ( x ) 1 × m n R m n m × nARmnN=mnf(A)=Tr(ABA′C)M=1Df(x)1×mnRmnm×n
Ślad jako forma liniowa
Niech będzie stałą macierzy. Następnie, z definicji śladu i mnożenia macierzy,m × nωm×n
Tr(Aω′)=∑i=1m(Aω′)ii=∑i=1m(∑j=1nAij(ω′)ji)=∑i,jωijAij
Wyraża to najbardziej ogólną możliwą kombinację liniową współczynników : jest macierzą o tym samym kształcie co a jej współczynnik w rzędzie i kolumnie jest współczynnikiem w kombinacji liniowej. Ponieważ , role i mogą się zmieniać, dając równoważne wyrażenieω A i j A i j ω i j A i j = A i j ω i j ω AAωAijAijωijAij=AijωijωA
∑i,jωijAij=Tr(Aω′)=Tr(ωA′).(1)
Poprzez identyfikację stałej macierzy pomocą jednej z funkcji nazwa lub , możemy reprezentować liniowy formuje się na przestrzeni macierzy jako macierzy. (Nie myl ich z pochodnymi funkcji z do !)A → Tr ( A ω ′ ) A → Tr ( ω A ′ ) m × n m × n R n R mωA→Tr(Aω′)A→Tr(ωA′)m×nm×nRnRm
Obliczanie pochodnej
Definicja
Pochodne wielu funkcji macierzowych spotykanych w statystykach można najłatwiej i rzetelnie obliczyć z definicji: tak naprawdę nie trzeba uciekać się do skomplikowanych reguł różnicowania macierzy. Definicja ta mówi, że jest różniczkowalna dla wtedy i tylko wtedy, gdy istnieje transformacja liniowa taka, żex L.fxL
f(x+h)−f(x)=Lh+o(|h|)
na dowolnie małe przemieszczenia . Notacja little-oh oznacza, że błąd popełniony w przybliżeniu różnicy przez jest arbitralnie mniejszy niż rozmiar dla wystarczająco małego . W szczególności zawsze możemy ignorować błędy, które są proporcjonalne do .h∈RNf(x+h)−f(x)Lhhh|h|2
Kalkulacja
Zastosujmy definicję do omawianej funkcji. Pomnożenie, rozwinięcie i zignorowanie terminu z iloczynem dwóch ,h
f(A+h)−f(A)=Tr((A+h)B(A+h)′C)−Tr(ABA′C)=Tr(hBA′C)+Tr(ABh′C)+o(|h|).(2)
Aby zidentyfikować pochodną , musimy wprowadzić ją do postaci . Pierwszy składnik po prawej stronie znajduje się już w tej postaci z . Drugi termin po prawej stronie ma postać nazwa dla . Napiszmy to:L=Df(A)(1)ω=BA′CTr(Xh′C)X=AB
Tr(Xh′C)=∑i=1m∑j=1n∑k=1mXijhkjCki=∑i,j,khkj(CkiXij)=Tr((CX)h′).(3)
Przywołując , można przepisaćX=AB(2)
f(A+h)−f(A)=Tr(hBA′C)+Tr(CABh′)+o(|h|).
W tym sensie możemy uznać pochodną w za ponieważ te macierze grają role we wzorach śledzenia .fA
Df(A)=(BA′C)′+CAB=C′AB′+CAB,
ω(1)
Kładąc wszystko razem
Oto kompletne rozwiązanie.
Niech będzie macierzą macierzy, an macierzy, a an macierzy. Niech . Niech będzie macierzą macierzy o dowolnie małych współczynnikach. Ponieważ (według tożsamości ) jest różniczkowalna, a jej pochodna jest formą liniową określoną przez macierzAm×nBn×nCm×mf(A)=Tr(ABA′C)hm×n(3)
f(A+h)−f(A)=Tr(hBA′C)+Tr(ABh′C)+o(|h|)=Tr(h(C′AB′)′+(CAB)h′)+o(|h|),
fC′AB′+CAB.
Ponieważ zajmuje to tylko około połowy pracy i obejmuje tylko najbardziej podstawowe manipulacje macierzami i śladami (mnożenie i transpozycja), należy to uznać za prostszą - i prawdopodobnie bardziej widoczną - demonstrację wyniku. Jeśli naprawdę chcesz zrozumieć poszczególne etapy oryginalnej demonstracji, może okazać się owocne porównanie ich z przedstawionymi tutaj obliczeniami.