Problem z estymacją parametrów


13

Niech i będą czterema zmiennymi losowymi, takimi jak , gdzie są nieznanymi parametrami. Załóżmy również, że ,Więc który z nich jest prawdziwy?Y1,Y2,Y3Y4E(Y1)=θ1θ3;  E(Y2)=θ1+θ2θ3;  E(Y3)=θ1θ3;  E(Y4)=θ1θ2θ3θ1,θ2,θ3Var(Yi)=σ2i=1,2,3,4.

A. są możliwe do .θ1,θ2,θ3

B. jest .θ1+θ3

C. jest a jest najlepszym liniowym obiektywnym oszacowaniem .θ1θ312(Y1+Y3)θ1θ3

D. jest .θ2

Podana odpowiedź to C, które wydaje mi się dziwne (ponieważ dostałem D).

Dlaczego mam D? Ponieważ .E(Y2Y4)=2θ2

Dlaczego nie rozumiem, że C może być odpowiedzią? Ok, widzę, jest obiektywnym estymatorem , a jego wariancja jest mniejsza niż . θ1-θ3Y1+Y3Y1+Y2+Y3+Y44θ1θ3Y1+Y32

Proszę powiedz mi, gdzie robię źle.

Umieszczono również tutaj: /math/2568894/a-problem-on-estimability-of-parameters


1
Wstaw self-studytag, bo ktoś przyjdzie i zamknie twoje pytanie.
Carl

@Carl to zrobione, ale dlaczego?
Stat_prob_001

Są to zasady dotyczące witryny, a nie moje zasady, zasady dotyczące witryny.
Carl

Czy ? Y1Y3
Carl

1
@Carl możesz myśleć w ten sposób: gdzie to rv ze średnią i wariancją . I, gdzie to rv ze średnią i wariancjąϵ 1 0 σ 2 Y 3 = θ 1 - θ 3 + ϵ 3 ϵ 3 0 σ 2Y1=θ1θ3+ϵ1ϵ10σ2Y3=θ1θ3+ϵ3ϵ30σ2
Stat_prob_001

Odpowiedzi:


8

Ta odpowiedź podkreśla weryfikowalność. Właściwość minimalnej wariancji należy do mojej drugiej uwagi.

Na początek podsumuj informacje dotyczące formy macierzowej modelu liniowego w następujący sposób: gdzie (aby omówić oszacowanie, założenie sferyczności nie jest konieczne. Ale aby omówić właściwość Gaussa-Markowa, musimy założyć kulistość ). E(

(1)Y:=[Y1Y2Y3Y4]=[101111101111][θ1θ2θ3]+[ε1ε2ε3ε4]:=Xβ+ε,
εE(ε)=0,Var(ε)=σ2Iε

Jeśli macierz projektowa ma pełną rangę, to parametr początkowy dopuszcza unikalne oszacowanie najmniejszych kwadratów . W związku z tym dowolny parametr , zdefiniowany jako funkcja liniowa z , można oszacować w tym sensie, że można go jednoznacznie oszacować na podstawie danych za pomocą oszacowania metodą najmniejszych kwadratów as .β β = ( X ' X ) - 1 X " Y cp cp ( β ) β β cp = P ' βXββ^=(XX)1XYϕϕ(β)ββ^ϕ^=pβ^

Subtelność powstaje, gdy nie ma pełnej rangi. Aby przeprowadzić dokładną dyskusję, najpierw naprawiamy niektóre zapisy i terminy (przestrzegam konwencji „Podejście bez współrzędnych do modeli liniowych” , punkt 4.8. Niektóre z tych terminów brzmią niepotrzebnie technicznie). Ponadto dyskusja dotyczy ogólnego modelu liniowego z i .Y = X β + ε X R n × k β R kXY=Xβ+εXRn×kβRk

  1. Kolektora regresji jest zbiorem wektorów jako średnią zmienia się w : R k M = { X β : β R k } .βRk
    M={Xβ:βRk}.
  2. Funkcja parametryczna jest liniową funkcją , β ϕ ( β ) = p β = p 1 β 1 + + p k β k .ϕ=ϕ(β)β
    ϕ(β)=pβ=p1β1++pkβk.

Jak wspomniano powyżej, gdy , nie każda funkcja parametryczna jest możliwa do oszacowania. Ale poczekaj, jaka jest definicja terminu możliwa do oszacowania pod względem technicznym? Trudno podać jasną definicję bez zawracania głowy algebrą liniową. Jedna z definicji, która moim zdaniem jest najbardziej intuicyjna, jest następująca (z tego samego wyżej wspomnianego odniesienia):ϕ ( β )rank(X)<kϕ(β)

Definicja 1. Funkcjonalność parametrycznąmożna oszacować, jeśli jest jednoznacznie określona przezw tym sensie, żeza każdym razem, gdyspełniają.X β ϕ ( β 1 ) = ϕ ( β 2 ) β 1 , β 2R k X β 1 = X β 2ϕ(β)Xβϕ(β1)=ϕ(β2)β1,β2RkXβ1=Xβ2

Interpretacja. Z powyższej definicji wynika, że ​​mapowanie z kolektora regresji do przestrzeni parametrów musi być jeden do jednego, co jest gwarantowane, gdy (tj. Gdy sam jest jeden- do jednego). Kiedy , wiemy, że istnieją takie, że . Powyższa możliwa do oszacowania definicja wyklucza te funkcjonalne parametryczne z defektem strukturalnym, które same w sobie dają różne wartości, nawet przy tej samej wartości na , co nie ma naturalnego sensu. Z drugiej strony, przewidywalna funkcja parametrycznaRanga M ϕ ( X ) = k Ranga X ( X ) < k β 1β 2 X β 1 = X β 2 M ϕ ( ) ϕ ( β 1 ) = ϕ ( β 2 ) β 1β 2 X β 1 = X β 2Mϕrank(X)=kXrank(X)<kβ1β2Xβ1=Xβ2Mϕ()zezwala na wielkość liter z , o ile warunek jest spełniony.ϕ(β1)=ϕ(β2)β1β2Xβ1=Xβ2

Istnieją inne równoważne warunki, aby sprawdzić estymację funkcji parametrycznej podanej w tym samym odnośniku, Twierdzenie 8.4.

Po tak pełnym wprowadzeniu w tło wróćmy do twojego pytania.

A. Samego nie się z tego powodu, że , co pociąga za sobą z . Chociaż powyższa definicja jest podana dla funkcjonałów skalarnych, łatwo można ją uogólnić na funkcjonały o wartości wektorowej.ranga ( X ) < 3 X β 1 = X β 2 β 1β 2βrank(X)<3Xβ1=Xβ2β1β2

B. jest nie do oszacowania. To , rozważmy i , co daje ale .β 1 = ( 0 , 1 , 0 ) β 2 = ( 1 , 1 , 1 ) X β 1 = X β 2 ϕ 1 ( β 1 ) = 0 + 0 =ϕ1(β)=θ1+θ3=(1,0,1)ββ1=(0,1,0)β2=(1,1,1)Xβ1=Xβ2ϕ1(β1)=0+0=0ϕ1(β2)=1+1=2

C. można oszacować. Ponieważ trywialnie implikuje , tj. .X β 1 = X β 2 θ ( 1 ) 1 - θ ( 1 ) 3 = θ ( 2 ) 1 - θ ( 2 ) 3 ϕ 2 ( β 1 ) = ϕ 2ϕ2(β)=θ1θ3=(1,0,1)βXβ1=Xβ2θ1(1)θ3(1)=θ1(2)θ3(2)ϕ2(β1)=ϕ2(β2)

D. jest również możliwe do oszacowania . z do jest również trywialne.X β 1 = X β 2 ϕ 3 ( β 1 ) = ϕ 3 ( β 2 )ϕ3(β)=θ2=(0,1,0)βXβ1=Xβ2ϕ3(β1)=ϕ3(β2)

Po zweryfikowaniu oszacowania istnieje twierdzenie (Twierdzenie 8.16, to samo odniesienie) twierdzi, że właściwość Gaussa-Markowa dla . Na podstawie tego twierdzenia druga część opcji C jest niepoprawna. Najlepsze liniowe oszacowanie bezstronne to , zgodnie z poniższym twierdzeniem.ˉ Y = ( Y 1 + Y 2 + Y 3 + Y 4 ) / 4ϕ(β)Y¯=(Y1+Y2+Y3+Y4)/4

Twierdzenie. Niechbędzie możliwą do oszacowania funkcją parametryczną, wtedy jego najlepszym liniowym obiektywnym oszacowaniem (aka, oszacowanie Gaussa-Markowa) jestdla dowolnego rozwiązaniado normalnych równań.φ ( β ) β X ' X β = X ' Yϕ(β)=pβϕ(β^)β^XXβ^=XY

Dowód jest następujący:

Dowód. Proste obliczenia pokazują, że normalne równania to które, po uproszczeniu jest to: tj. . [ φ ( β ) θ 2 / 2 - φ ( β ) ] = [ ˉ Y ( Y

[404020404]β^=[111101011111]Y,
[ϕ(β^)θ^2/2ϕ(β^)]=[Y¯(Y2Y4)/4Y¯],
ϕ(β^)=Y¯

Dlatego opcja D jest jedyną prawidłową odpowiedzią.


Dodatek: Związek szacowności i identyfikowalności

Gdy byłem w szkole, profesor krótko wspomniał, że estymacja funkcji parametrycznej odpowiada identyfikowalności modelu. Uznałem to roszczenie za oczywiste. Jednak równoważność musi być wyrażona bardziej precyzyjnie.ϕ

Według monografii AC Davisona Modele statystyczne s. 144,

Definicja 2. Model parametryczny, w którym każdy parametrgeneruje inny rozkład, nazywa się identyfikowalnym .θ

W przypadku modelu liniowego , niezależnie od warunku sferyczności , można go przeformułować jako (1)Var(ε)=σ2I

(2)E[Y]=Xβ,βRk.

Jest to model taki prosty, że tylko określone pierwszego formularza moment wektora odpowiedzi . Gdy , model jest zidentyfikowania, ponieważ oznacza (słowo „dystrybucja” w oryginalnej definicji, naturalnie sprowadza się do „oznacza „w modelu .).Yrank(X)=k(2)β1β2Xβ1Xβ2(2)

Załóżmy teraz, że i dana funkcja parametryczna , jak pogodzić definicję 1 i definicję 2 ?rank(X)<kϕ(β)=pβ

Cóż, manipulując notacjami i słowami, możemy pokazać, że („dowód” jest raczej trywialny) estymacja jest równoważna temu, że model jest identyfikowalny, gdy jest sparametryzowany parametrem (macierz projektowa prawdopodobnie się odpowiednio zmieni). Aby udowodnić, załóżmy, że można oszacować, więc oznacza , z definicji jest to , stąd model jest zidentyfikowania podczas indeksowania za pomocą . Odwrotnie, załóżmy, że model jest możliwy do zidentyfikowaniaϕ(β)(2)ϕ=ϕ(β)=pβXϕ(β)Xβ1=Xβ2pβ1=pβ2ϕ1=ϕ2(3)ϕ(3)Xβ1=Xβ2 oznacza , co jest trywialnie .ϕ1=ϕ2ϕ1(β)=ϕ2(β)

Intuicyjnie, gdy ma zmniejszoną pozycję w rankingu, model z jest redundantny (zbyt wiele parametrów), dlatego możliwa jest nie redundantna niższa wymiarowa reparametryzacja (która może składać się z zbioru funkcjonałów liniowych). Kiedy taka nowa reprezentacja jest możliwa? Kluczem jest oszacowanie.Xβ

Aby zilustrować powyższe stwierdzenia, zastanówmy się ponownie nad twoim przykładem. że parametryczne funkcjonały i są możliwe do . Dlatego możemy przepisać model pod względem parametru reparametryzowanego w następujący sposób ϕ2(β)=θ1θ3ϕ3(β)=θ2(1)(ϕ2,ϕ3)

E[Y]=[10111011][ϕ2ϕ3]=X~γ.

Oczywiście, ponieważ ma pełną pozycję, model z nowym parametrem jest zidentyfikowania.X~γ


Jeśli potrzebujesz dowodu na drugą część opcji C, uzupełnię moją odpowiedź.
Zhanxiong

2
dzięki! za tak szczegółową odpowiedź. A teraz druga część C: Wiem, że „najlepszy” odnosi się do minimalnej wariancji. Dlaczego więc nie jest „najlepszy” ? 14(Y1+Y2+Y3+Y4)
Stat_prob_001

2
Och, nie wiem, dlaczego myślałem, że to estymator w C. Właściwie jest najlepszym estymatorem. (Y1+Y2+Y3+Y4)/4
Zmodyfikuję

6

Zastosuj definicje.

Podam szczegóły, aby zademonstrować, w jaki sposób można zastosować techniki elementarne: nie musisz znać żadnych specjalnych twierdzeń na temat szacowania, ani nie będziesz musiał zakładać niczego o (marginalnych) rozkładach . Będziemy musieli podać jedno brakujące założenie dotyczące momentów ich wspólnej dystrybucji.Yi

Definicje

Wszystkie oszacowania liniowe mają postać dla stałych .

tλ(Y)=i=14λiYi
λ=(λi)

Estymator jest bezstronny, jeśli i tylko jeśli jego oczekiwanie wynosi . Według liniowości oczekiwańθ1θ3θ1θ3

θ1θ3=E[tλ(Y)]=i=14λiE[Yi]=λ1(θ1θ3)+λ2(θ1+θ2θ3)+λ3(θ1θ3)+λ4(θ1θ2θ3)=(λ1+λ2+λ3+λ4)(θ1θ3)+(λ2λ4)θ2.

Porównanie współczynników nieznanych wielkości ujawniaθi

(1)λ2λ4=0 and λ1+λ2+λ3+λ4=1.

W kontekście liniowego obiektywnego oszacowania „najlepszy” zawsze oznacza najmniejszą wariancję. Wariant jesttλ

Var(tλ)=i=14λi2Var(Yi)+ij4λiλjCov(Yi,Yj).

Jedynym sposobem na osiągnięcie postępu jest dodanie założenia o kowariancjach: najprawdopodobniej pytanie ma na celu stwierdzenie, że wszystkie są zerowe. (Nie oznacza to, że są niezależne. Ponadto problem można rozwiązać, przyjmując wszelkie założenia określające te kowariancje do wspólnej stałej multiplikatywnej. Rozwiązanie zależy od struktury kowariancji.)Yi

Ponieważ otrzymujemyVar(Yi)=σ2,

(2)Var(tλ)=σ2(λ12+λ22+λ32+λ42).

Problemem jest zatem zminimalizowanie zastrzeżeniem ograniczeń .(2)(1)

Rozwiązanie

Ograniczenia pozwalają nam wyrazić wszystkie w kategoriach tylko dwóch liniowych kombinacji. Niech i (które są liniowo niezależne). Określają one i podczas gdy ograniczenia określają i . Wszystko, co musimy zrobić, to zminimalizować , które można zapisać(1)λiu=λ1λ3v=λ1+λ3λ1λ3λ2λ4(2)

σ2(λ12+λ22+λ32+λ42)=σ24(2u2+(2v1)2+1).

Żadne ograniczenia nie dotyczą . Załóżmy (aby zmienne nie były tylko stałymi). Ponieważ i są najmniejsze tylko wtedy, gdy , teraz jest oczywiste, że unikalnym rozwiązaniem jest(u,v)σ20u2(2v1)2u=2v1=0

λ=(λ1,λ2,λ3,λ4)=(1/4,1/4,1/4,1/4).

Opcja (C) jest fałszywa, ponieważ nie daje najlepszego obiektywnego estymatora liniowego. Opcja (D), choć nie podaje pełnych informacji, jest jednak poprawna, ponieważ

θ2=E[t(0,1/2,0,1/2)(Y)]

jest oczekiwaniem na estymator liniowy.

Łatwo zauważyć, że ani (A), ani (B) nie mogą być poprawne, ponieważ przestrzeń oczekiwań estymatorów liniowych jest generowana przez i żaden z lub są w tym miejscu.θ 1 , θ 3 , θ 1 + θ 3{θ2,θ1θ3}θ1,θ3,θ1+θ3

W konsekwencji (D) jest unikalną poprawną odpowiedzią.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.