W przypadku jakich modeli tendencyjność MLE spada szybciej niż wariancja?


14

θ^θnθ^θO(1/n)Eθ^θEθ^θ^O(1/n)

Interesują mnie modele, które mają odchylenie, które zmniejsza się szybciej niż O(1/n) , ale w którym błąd nie zmniejsza się w tym szybszym tempie, ponieważ odchylenie nadal zmniejsza się jako O(1/n) . W szczególności chciałbym poznać warunki wystarczające do zmniejszenia obciążenia modelu w tempie O(1/n) .


Czy ? Lub? θ^θ=(θ^θ)2
Alecos Papadopoulos

Pytałem konkretnie o normę L2, tak. Byłbym jednak zainteresowany innymi normami, jeśli ułatwi to udzielenie odpowiedzi na pytanie.
Mike Izbicki,

O P ( 1 / n )(θ^θ)2 to . Op(1/n)
Alecos Papadopoulos

Przepraszam, źle odczytałem twój komentarz. Dla normy L2 w wymiarach , a zatem zbieżność jest równa . Zgadzam się, że jeśli to zrobimy, to zbiegnie się jako . a - b = d O(1/ab=i=1d(aibi)2O(1/n)O(1/n)O(1/n)
Mike Izbicki,

Czy widziałeś papier regresji grzbietu (Hoerl & Kennard 1970)? Uważam, że daje to warunki dla matrycy projektowej + kary tam, gdzie ma to być prawda.
dcl

Odpowiedzi:


5

Ogólnie rzecz biorąc, potrzebujesz modeli, w których MLE nie jest asymptotycznie normalny, ale zbiega się z innym rozkładem (i robi to szybciej). Zwykle dzieje się tak, gdy szacowany parametr znajduje się na granicy przestrzeni parametrów. Intuicyjnie oznacza to, że MLE podejdzie do parametru „tylko z jednej strony”, więc „poprawia się prędkość konwergencji”, ponieważ nie jest on „rozpraszany” przez poruszanie się „do przodu i do tyłu” wokół parametru.

Standardowym przykładem jest MLE dla w iid próbce jednolitego rv MLE tutaj jest statystyką maksymalnego rzędu,U ( 0 , θ )θU(0,θ)

θ^n=u(n)

Jego skończony rozkład próbek wynosi

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

E(θ^n)=nn+1θB(θ^)=1n+1θ

Więc . Ale ta sama podwyższona stopa będzie obowiązywać również dla wariancji.B(θ^n)=O(1/n)

Można również zweryfikować, że aby uzyskać rozkład ograniczający, musimy spojrzeć na zmienną , (tj. Musimy skalować o ), ponieważNn(θθ^n)n

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1ez/θ

który jest CDF rozkładu wykładniczego.

Mam nadzieję, że to daje pewien kierunek.


Zbliża się, ale szczególnie interesują mnie sytuacje, w których odchylenie zmniejsza się szybciej niż wariancja.
Mike Izbicki

2
@MikeIzbicki Hmm ... zbieżność odchylenia zależy od pierwszego momentu rozkładu, a wariancja (pierwiastek kwadratowy) jest również wielkością „pierwszego rzędu”. Nie jestem więc pewien, czy tak się stanie, ponieważ wydaje się, że oznaczałoby to, że momenty ograniczającego rozkładu „powstają” przy stawkach konwergencji, które nie są ze sobą kompatybilne ... Zastanowię się jednak.
Alecos Papadopoulos

2

Po komentarzach do mojej drugiej odpowiedzi (i ponownym spojrzeniu na tytuł pytania PO!), Oto niezbyt rygorystyczne teoretyczne zbadanie tego problemu.

Chcemy ustalić, czy może mieć inny współczynnik zbieżności niż pierwiastek kwadratowy wariancji,B(θ^n)=E(θ^n)θ

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

Mamy

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

(1)[E(θ^n)]2=O(1/n2δ)

podczas

Var(θ^n)=O(1/nγ)limnγE(θ^n2)[E(θ^n)]2<M

limn2γE(θ^n2)n2γ[E(θ^n)]2<M

(2)limn2γE(θ^n2)limn2γ[E(θ^n)]2<M

Widzimy, że może się zdarzyć, jeśli (2)

A) oba składniki to , w którym to przypadku możemy mieć tylko . O(1/n2γ)γ=δ

B) Ale może to również dotyczyć, jeśli

(3)limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)

Aby był zgodny z , musimy go mieć(3)(1)

(4)n2γ<n2δδ>γ

Wydaje się więc, że w zasadzie możliwe jest zbieganie się odchylenia w szybszym tempie niż pierwiastek kwadratowy wariancji. Ale nie możemy mieć pierwiastka kwadratowego wariancji zbiegającego się szybciej niż błąd systematyczny.


Jak pogodziłbyś to z istnieniem obiektywnych estymatorów, takich jak zwykłe najmniejsze kwadraty? W takim przypadku , ale . B(θ^)=0Var(θ^)=O(1/n)
Mike Izbicki

@MikeIzbicki Czy w tym przypadku ma zastosowanie koncepcja konwergencji / big-O? Ponieważ tutaj nie jest na początku „ ” czymś. B(θ^)O()
Alecos Papadopoulos

W tym przypadku , więc . Eθ^=θB(θ^)=Eθ^θ=0=O(1)=O(1/n0)
Mike Izbicki

@MikeIzbicki Ale także lub lub inne, które chcesz zapisać. Który jest tutaj stopniem konwergencji? B(θ^)=O(n)B(θ^)=O(1/n)
Alecos Papadopoulos

@MikeIzbicki Poprawiłem swoją odpowiedź, aby pokazać, że zasadniczo możliwe jest szybsze zbieganie się odchylenia, chociaż nadal uważam, że przykład „zerowego odchylenia” jest problematyczny.
Alecos Papadopoulos
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.