Pokazuje, że estymator OLS jest równoważny skali?


11

Nie mam formalnej definicji równoważności skali, ale oto, co mówi o tym Wprowadzenie do uczenia statystycznego na s. 217:

Standardowe współczynniki najmniejszych kwadratów ... są equivariant skala : mnożąc Xj przez stałą c po prostu prowadzi do skalowania najsłabiej oszacowań współczynników kwadraty o współczynnik 1/c .

Dla uproszczenia załóżmy ogólny model liniowy y=Xβ+ϵ , gdzie yRN , X to macierz N×(p+1) (gdzie p+1<N ) ze wszystkimi wpisami w R , βRp+1 i ϵ to N wymiarowy wektor losowych zmiennych o wartościach rzeczywistych z E[ϵ]=0N×1 .

Z oszacowania OLS wiemy, że jeśli X ma pełną (kolumnę) pozycję,

β^X=(XTX)1XTy.
Załóżmy, że pomnożymy kolumnę X , powiedzmy xk dla niektórych k{1,2,,p+1} , przez stałą c0 . Byłoby to równoważne macierzy
X[111c11]S=[x1x2cxkxp+1]X~
gdzie wszystkie pozostałe wpisy macierzy S powyżej mają wartość 0 , a c znajduje się w k tym wpisie przekątnej S . Następnie,X~X~ponieważ nową macierzą projektu jest
β^X~=(X~TX~)1X~Ty.
Po pracy można pokazać, że
X~TX~=[x1Tx1x1Tx2cx1Txkx1Txp+1x2Tx1x2Tx2cx2Txkx2Txp+1cxkTx1cxkTx2c2xkTxkcxkTxp+1xp+1Tx1xp+1Tx2cxp+1Txp+1xp+1Txp+1]
\ cdots & \ mathbf {x} _ {p + 1} ^ {T} \ mathbf {x} _ {p + 1} \\ \ end {bmatrix} i
X~Ty=[x1Tyx2TycxkTyxp+1Ty]
Jak przejść stąd, aby wyświetlić cytowane wyżej roszczenie (tj. że β^X~=1cβ^X )? Nie jest dla mnie jasne, jak obliczyć (X~TX~)1 .

Myślę, że twój nie ma racji, brakuje mnożnika całym rzędzie. cX~TX~c
Firebug

1
Pamiętaj też, że roszczenie to , nie każdy . β^k,new=1cβ^k,oldβ
Firebug

@ Firebug Tak, właśnie to rozgryzłem. Wysyłam odpowiedź.
Klarnecista

2
Można wymienić cały ten algebrę o znacznie prostszej analizy jednostek, ponieważ mnożenie przez jedynie zmienia jednostkę miary, a więc odpowiada zmiana w jednostkach związanych z jego współczynnik jest podzielenie go przez . To nie dowodzi, że należy niestety podzielić przez . Jednak ten łańcuch myśli może przypominać nam, że regresję wielokrotną można przeprowadzić kolejno przez jedną regresję przeciwko jednemu regresorowi, przy czym jasne jest, że jest podzielony przez , a zatem dowód jest kompletny. C β j c β j c β J cXjcβjcβ^jcβ^jc
Whuber

@ Whuber, choć intuicja dla wyniku jest jasna, wydaje się, że musi być trochę algebry w dostarczaniu dowodu. W końcu współczynnik skalowania musi zostać odwrócony. c
user795305

Odpowiedzi:


11

Ponieważ twierdzenie w cytacie jest zbiorem stwierdzeń dotyczących przeskalowywania kolumn , równie dobrze możesz udowodnić je wszystkie naraz. Rzeczywiście, nie trzeba więcej pracy, aby udowodnić uogólnienie twierdzenia:X

Gdy jest pomnożone przez prawo przez odwracalną macierz , wówczas nowy współczynnik oszacowania jest równy lewy pomnożony przez A - 1 .β βXAβ^Aβ^A1

Jedynymi faktami algebraicznymi, których potrzebujesz, są (łatwo udowodnione, dobrze znane), że dla dowolnej macierzy A B i ( A B ) - 1 = B - 1 A - 1 dla macierzy odwracalnych i B . (Subtelniejsza wersja tego ostatniego jest potrzebna podczas pracy z uogólnionymi inwersjami: dla odwracalnych A i B i dowolnego X , ( A X B )(AB)=BAAB(AB)1=B1A1ABABX ).(AXB)=B1XA1


Dowód algebraicznie : β = ( ( X ) ' ( ( X ) ) - ( X ) " Y = - 1 ( X ' X ) - ( ' ) - 1 ' Y = A - 1 β ,

β^A=((XA)((XA))(XA)y=A1(XX)(A)1Ay=A1β^,

CO BYŁO DO OKAZANIA. (Aby to dowód na to być całkowicie Ogólnie - górny odnosi się do uogólnionych odwrotności).


Dowód według geometrii :

Biorąc pod uwagę zasady i e n z R n i R P , odpowiednio, X oznacza liniową transformację z R p do R n . Prawym mnożenie X przez A można uznać za pozostawienie tej transformacji stały ale zmienia E p do E p (czyli do kolumny A ). Zgodnie z tym zmianą podstawy reprezentacja dowolnego wektora pREpEnRnRpXRpRnXAEpAEpA musi się zmienić poprzez pomnożenie w lewo przez A - 1 ,QED.β^RpA1

(Ten dowód działa niezmodyfikowany, nawet jeśli nie jest odwracalny.)XX


Cytat dotyczy w szczególności przypadku przekątnej macierzy z A i i = 1 do i j i J J = C .AAii=1ijAjj=c


Połączenie z najmniejszymi kwadratami

Celem jest tutaj zastosowanie pierwszych zasad w celu uzyskania wyniku, przy czym zasada jest najmniejszych kwadratów: oszacowanie współczynników, które minimalizują sumę kwadratów reszt.

Ponownie udowodnienie (ogromnego) uogólnienia nie jest już trudniejsze i raczej ujawnia. Załóżmy, że to dowolna mapa (liniowa lub nie) rzeczywistych przestrzeni wektorowych i załóżmy, że Q jest dowolną funkcją o wartościach rzeczywistych na W n . Niech U V p będzie (możliwie pustym) zbiorem punktów v, dla których Q ( ϕ ( v ) ) jest zminimalizowane.

ϕ:VpWn
QWnUVpvQ(ϕ(v))

Wyniki: , który jest określony wyłącznie przez Q i cp , nie zależy od żadnego wyboru podstawy E P stosowanych do reprezentacji wektorów w V p .UQϕEpVp

Dowód: QED.

Nie ma nic do udowodnienia!

Zastosowanie wyniku: Niech będzie dodatnią półksiężycową formą kwadratową na R n , niech y R n , i załóżmy, że ϕ jest mapą liniową reprezentowaną przez X, gdy wybrane są zasady V p = R p i W n = R n . Zdefiniuj Q ( x ) = F ( y , x ) . Wybierz podstawę R p i załóżmy βFRnyRnϕXVp=RpWn=RnQ(x)=F(y,x)Rpβ^jest reprezentacją niektórych na tej podstawie. Jest najmniejszych kwadratów : x = X p minimalizuje kwadrat odległości F ( y , x ) . Ponieważ X jest liniową mapą zmieniając podstaw R p odpowiada prawej zwielokrotnianiem X za pośrednictwem odwracania sygnału macierzy A . Że wola lewej pomnożyć p przez A - 1 , QED .vUx=Xβ^F(y,x)XRpXAβ^A1


6

Określenie Estymator najmniejszych kwadratów β = Arg min β R py - x β 2 2 , w którym konstrukcja macierzy X R n x s pełne rzędu. Zakładając, że macierz skalowania S R p × p jest odwracalna.β^=argminβRpyXβ22XRn×pSRp×p

Zdefiniuj ten nowy skalowany estymator . Oznacza to, że y - X S ˜ α2 2 < y - X S α 2 2 dla wszystkich α ˜ α . Definiowanie ˜ β = S ˜ αα~=argminαRpyXSα22

yXSα~22<yXSα22
αα~β~=Sα~, możemy przepisać tę wyświetlaną nierówność powyżej jako dla wszystkich β ˜ β . Dlatego ~ β = Arg min β R sY - X β 2 2 , i stąd, że Estymator najmniejszych kwadratów β = ~ β = S ~ α
yXβ~22<yXβ22
ββ~β~=argminβRpyXβ22 Ze względu na odwracalności macierzy skalowaniaS, wynika z tego, że ~ α =S-1 p . W tym przypadku, to tylko różni się od P przezkthwejścia są skalowane przez1
β^=β~=Sα~.
Sα~=S1β^β^kth .1c

1
Nie jestem zaznajomiony z pracą z i podobnymi funkcjami - czy mógłbyś wyjaśnić przejście od drugiej do trzeciej linii równań? arg min
Klarnecista

Napisałem to nieco inaczej, co powinno uczynić kroki bardziej wyraźnymi.
user795305

To jest naprawdę sprytne. (+1)
Klarnecista

4

Zrozumiałem to po opublikowaniu pytania. Jeśli jednak moja praca jest poprawna, błędnie zinterpretowałem roszczenie. The skalowanie występuje tylko dla jednego składnikaβodpowiadającego kolumnieXpomnożonej przezc.1cβXc

Zauważ, że w powyższym zapisie jest macierzą diagonalną, symetryczną ( p + 1 ) × ( p + 1 ) i ma odwrotną (ponieważ jest diagonalną) S - 1 = [ 1S(p+1)×(p+1) Zauważ, że( ˜ X T ˜ X )-1jestmacierzą(p+1)×(p+1). Załóżmy, że (XTX)-1=[ z 1 z 2z kz p + 1 ]. Potem wynika, że ( ˜ X T ˜ X

S1=[1111c11].
(X~TX~)1(p+1)×(p+1)
(XTX)1=[z1z2zkzp+1].
Stąd S - 1 ( X T X )
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
i pomnożenie tego przezS-1ma podobny efekt, jak pomnożenieXprzezS- pozostaje taki sam, z wyjątkiem1
S1(XTX)1=[z1z21czkzp+1]
S1XSmnoży się przez11czk : S-1(XTX)-1S-1=[ z 11cDlatego β ~ X
S1(XTX)1S1=[z1z21c2zkzp+1].
według potrzeb.
β^X~=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][x1Tyx2TycxkTyxp+1Ty]=[z1x1Tyz2x2Ty1czkxkTyzp+1xp+1Ty]

S1(XTX)1S1(XS)y(XS)

3

Najbardziej trywialny dowód w historii

Y=Xβ+ε
S=diag(s1,s1,,sn)siiX

Y=(XS.)(S.-1β)+ε

XS.S.-1β

Dowód Algebra tylko dla OLS

Skalowanie jest taka: . Twój OLS Estymator jest β = ( X T X

Z=Xrejazasol(s1,s2),...,sn)
sjaZXS.rejazasol(s1,s2),...,sn)
β^=(XT.X)-1XT.Y
ZX
(ZT.Z)-1ZT.Y=(S.T.XT.XS.)-1S.T.XT.Y=S.-1(XT.X)-1S.-1S.XT.Y=S.-1(XT.X)-1XT.Y=S.-1β^

2
δ:M.RpM.(X,Y)Rpδ(X,Y)=S.-1δ(XS.,Y)S.XY

@ Whuber, faktycznie jest na odwrót: rozsądna procedura dopasowania powinna spełniać ten warunek, w przeciwnym razie prosta zmiana jednostki miary spowoduje inną prognozę / oszacowanie. zaktualizuję swoją odpowiedź, trochę się nad tym
zastanowię

X

3
kumpel cesarski , nie królewski ...: D (ładna odpowiedź, +1)
usεr11852

@ usεr11852, dowiedziałem się czegoś dzisiaj :)
Aksakal

2

Łatwym sposobem, aby uzyskać ten wynik jest, aby y^yX. β^y^Xdo1/do

bjaβ^zajado.

b1x1+...+bixi+...+bmxm=a1x1+...ai(cxi)+...+anxn

bj=ajjibi=aicX

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.