Dlaczego ślad


13

W modelu możemy oszacować przy użyciu równania normalnego :y=Xβ+ϵβ

β^=(XX)1Xy,
i moglibyśmy dostać
y^=Xβ^.

Wektor reszt szacowany jest przez

ϵ^=yXβ^=(IX(XX)1X)y=Qy=Q(Xβ+ϵ)=Qϵ,

gdzie

Q=IX(XX)1X.

Moje pytanie brzmi: jak dojść do wniosku

tr(Q)=np.

Odpowiedzi:


12

Wniosek liczy jedynie wymiary przestrzeni wektorowych. Jednak ogólnie nie jest to prawdą.

Najbardziej podstawowe właściwości mnożenia macierzy pokazują, że transformacja liniowa reprezentowana przez macierz spełniaH=X(XX)X

H2=(X(XX)X)2=X(XX)(XX)(XX)X=H,

pokazując go jako operator projekcji . Dlatego jego uzupełnienie

Q=1H

(jak podano w pytaniu) jest również operatorem rzutowania. Ślad to jego ranga (patrz poniżej), skąd ślad jest równy . h Q n - hHhQnh

Z samej jego formuły wynika, że jest macierzą związaną ze składem dwóch transformacji liniowych i samoPierwszy ( ) przekształca wektor w wektor . Drugi ( ) to transformacja z do podana przez . Jego ranga nie może przekraczać mniejszego z tych dwóch wymiarów, który w ustawieniu co najmniej kwadratów jest zawsze (ale może być mniejszy niżJ = ( X X ) - X X JH

J=(XX)X
XJy tnypXRsRn y =x β PPJH=XJXβ^XRpRny^=Xβ^pp, ilekroć nie ma pełnej rangi). W związku z tym stopień w skład nie może przekroczyć stopień . Prawidłowy wniosek brzmi zatemJH=XJX

J n tr ( Q ) n - p βtr(Q)=np wtedy i tylko wtedy, gdy ma pełną rangę; i ogólnie . W pierwszym przypadku mówi się, że model jest „identyfikowalny” (dla współczynników ).Jntr(Q)npβ

X XJ będzie miał pełną rangę wtedy i tylko wtedy, gdy jest odwracalny.XX


Interpretacja geometryczna

n yH przedstawia rzut prostopadły z -vectors (reprezentuje „odpowiedź” lub „zmienną zależną”) na przestrzeni objętej przez kolumny (reprezentującymi „zmienne niezależne” lub „współzmienne”). Różnica pokazuje, jak rozłożyć dowolny wektor na sumę wektorów gdzie pierwszy można „przewidzieć” na podstawie a drugi jest do niego prostopadły. Gdy kolumny generują wymiarową przestrzeń (to znaczy nie są współliniowe),nyQ = 1 - H nXQ=1Hny = H ( y ) + Q ( y ) , X p X p H p Q n - p n - py

y=H(y)+Q(y),
XpXpH ma wartość a ranga wynosi , odzwierciedlając dodatkowe wymiary zmienności w odpowiedzi, które nie są reprezentowane w zmiennych niezależnych. Ślad daje wzór algebraiczny dla tych wymiarów.pQnpnp

Tło algebry liniowej

Operator występ na przestrzeni wektor (takie jak ) jest przekształcenie liniowe (Oznacza to, że endomorfizm z ) w taki sposób, . To sprawia, że ​​jego uzupełnienie jest operatorem projekcji, ponieważR n P : V V V P 2 = P Q = 1 - PVRnP:VVVP2=PQ=1P

Q2=(1P)2=12P+P2=12P+P=Q.

Wszystkie projekcje naprawiają każdy element ich obrazów, bo za każdym razem, gdy możemy napisać dla niektórych , wherecev = P ( w ) w V w = P ( v ) = P 2 ( v ) = P ( P ( v ) ) = P ( w ) .vIm(P)v=P(w)wV

w=P(v)=P2(v)=P(P(v))=P(w).

Związane z żadnym endomorfizm z są dwie podprzestrzenie: jego jądra i jego obraz Każdy wektor można zapisać w postaci gdzie i . Możemy zatem zbudować podstawową dla dla której i . Kiedy V ker ( P ) = { v vPV Im ( P ) = { v v

ker(P)={vv|P(v)=0}
v V v = w + u w Im ( P ) u Ker ( P ) E
Im(P)={vv|wVP(w)=v}.
vV
v=w+u
wIm(P)uKer(P)V E Ker ( PEFVF Im ( P ) V P P E P F f f F f P f ×EKer(P)FIm(P)Vjest skończony-wymiarowy, macierz na tej podstawie będzie zatem miała formę bloku diagonalnego, z jednym blokiem (odpowiadającym działaniu na ) wszystkimi zerami i drugim (odpowiadającym działanie na ) równe przez macierz tożsamości , gdzie wymiar wynosi . Ślad jest sumą wartości na przekątnej i dlatego musi być równy . Ta liczba jest ranga z : wymiaru jej wizerunku.PPEPFffFfPP.f×1=fP

Ślad jest równy śladowi (równemu , wymiarowi ) minus ślad . 1 n V P1P1nVP

Wyniki te można podsumować twierdzeniem, że ślad rzutu jest równy jego rangi.


Dziękuję bardzo. Nauczyłem się dużo rozszerzonej wiedzy z twojej odpowiedzi.
zhushun0008

19

@Dougal już udzielił odpowiedzi, ale oto kolejny, nieco prostszy.

Najpierw wykorzystajmy fakt, że . Otrzymujemy więc:Teraz jest tożsamość matrycy, tak . Wykorzystajmy teraz fakt, że , to znaczy ślad jest niezmienny w cyklicznych permutacjach. Mamy więc:Kiedy mnożymy przez , otrzymujemy macierz tożsamości , której ślad to . Otrzymujemy więc:tr(AB)=tr(A)tr(B)

tr(Q)=tr(I)tr(X(XX)1X).
In×ntr(I)=ntr(AB)=tr(BA)
tr(Q)=ntr((XX)1(XX)).
(XX)1(XX)p×pp
tr(Q)=np.

6

Załóżmy, że i że ma pełną pozycję.npX

Rozważmy zwarty rozkład pojedynczej wartości , gdzie jest przekątna, a mają (ale uwaga jest najwyżej więc nie może być ). Następnie Σ RX=UΣVTΣRp×pURn×p,VRp×pUTU=VTV=VVT=IpUUTpIn

X(XTX)1XT=UΣVT(VΣUTUΣVT)1VΣUT=UΣVT(VΣ2VT)1VΣUT=UΣVTVΣ2VTVΣUT=UUT.

Teraz istnieje macierz taka, że jest jednolity. Możemy napisać Ta forma pokazuje, że jest dodatnim półfinałem, a ponieważ jest to prawidłowy svd, a wartości osobliwe są kwadratem wartości własnych kwadratowej macierzy symetrycznej, mówi nam również, że ma wartości własne 1 (wielokrotności ) i 0 (wielokrotności ).U2Rn×npUn=[UU2]QQn-ppQn-p

IX(XTX)1XT=UnUnTUUT=Un(In[Ip000])UnT=Un[000Inp]UnT.
QQnppQnp.
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.