Przykłady, w których metoda momentów może przekroczyć maksymalne prawdopodobieństwo w małych próbkach?


57

Estymatory maksymalnego prawdopodobieństwa (MLE) są asymptotycznie skuteczne; widzimy praktyczny wynik w tym, że często wypadają lepiej niż szacunki metodą momentów (MoM) (gdy się różnią), nawet przy małych próbkach

Tutaj „lepsze niż” oznacza w tym sensie, że zazwyczaj ma mniejszą wariancję, gdy oba są obiektywne, i zazwyczaj mniejszy średni błąd kwadratowy (MSE) bardziej ogólnie.

Powstaje jednak pytanie:

Czy istnieją przypadki, w których MoM może pokonać MLE - na przykład w MSE - w małych próbkach?

(gdy nie jest to jakaś dziwna / zdegenerowana sytuacja - tj. biorąc pod uwagę, że warunki istnienia / utrzymywania ML są asymptotycznie skuteczne)

Kolejne pytanie brzmiałoby: „jak duży może być mały?” - to znaczy, jeśli istnieją przykłady, czy istnieją takie, które nadal zachowują względnie duże rozmiary próbek, być może nawet wszystkie skończone rozmiary próbek?

[Mogę znaleźć przykład stronniczego estymatora, który może pokonać ML w skończonych próbkach, ale to nie jest MoM.]


Uwaga dodana z mocą wsteczną: w tym miejscu skupiam się głównie na przypadku jednowymiarowym (z którego właśnie pochodzi moja podstawowa ciekawość). Nie chcę wykluczyć przypadków wielowymiarowych, ale nie chcę też szczególnie angażować się w dłuższe dyskusje na temat oszacowań Jamesa-Steina.


Nie ma problemu; zdarza się nam wszystkim i mi częściej niż tobie. Prawdopodobnie powinienem był umieścić to w tytule, ale było już dość długo.
Glen_b

@ kardynał Uściśliłem teraz kryteria.
Glen_b

3
Istnieją inne sposoby, w jakie metoda momentów może „pokonać” maksymalne prawdopodobieństwo. Na przykład w normalnych problemach z oszacowaniem mieszaniny MLE jest niezwykle trudne do obliczenia, podczas gdy MoM nie.
vqv

@vqv Z pewnością w tym sensie MoM może być lepszy.
Glen_b

2
Ponieważ mam tendencję do sympatyzowania z plebejuszami, informuję, że w próbce Iid Uniforms estymator MoM dla ma to samo MSE z patrycjuszem (MLE), jeśli wielkość próby wynosi lub ... Ale, niestety, w przypadku większych próbek patrycjusz ponownie potwierdza swoją suwerenność ...θ 1 2U(0,θ)θ12
Alecos Papadopoulos

Odpowiedzi:


36

Można to uznać za oszustwo, ale estymator OLS jest estymatorem MoM. Rozważ standardową specyfikację regresji liniowej (z regresorami stochastycznymi , więc wielkości są uwarunkowane macierzą regresora) i próbkę o wielkości . Oznacz estymator OLS wariancji terminu błędu. Jest to więc bezstronnen s 2 σ 2Kns2σ2

MSE(s2)=Var(s2)=2σ4nK

Rozważ teraz MLE . To jestσ2

σ^ML2=nKns2
Czy to tendencyjne. Jego MSE to

MSE(σ^ML2)=Var(σ^ML2)+[E(σ^ML2)σ2]2
Wyrażając MLE w kategoriach OLS i używając wyrażenia dla wariancji estymatora OLS otrzymujemy

MSe( σ 2 M L )=2(n-K)+K2

MSE(σ^ML2)=(nKn)22σ4nK+(Kn)2σ4
MSE(σ^ML2)=2(nK)+K2n2σ4

Chcemy warunków (jeśli istnieją), w których

MSE(σ^ML2)>MSE(s2)2(nK)+K2n2>2nK

2(nK)2+K2(nK)>2n2
2n24nK+2K2+nK2K3>2n2
Upraszczając otrzymujemy Czy jest możliwe, aby ten kwadrat w uzyskiwał wartości ujemne? Potrzebujemy, aby dyskryminator był pozytywny. Mamy , która jest inna kwadratowy w tego czasu. Ta dyskryminacja to więc aby wziąć pod uwagę fakt, że jest liczbą całkowitą. Jeśli
4n+2K+nKK2>0K2(n+2)K+4n<0
K
ΔK=(n+2)216n=n2+4n+416n=n212n+4
n
Δn=12242=816
n1,n2=12±8162=6±42n1,n2={1,12}
nnznajduje się w tym przedziale, że a w przyjmuje zawsze wartości dodatnie, więc nie możemy uzyskać wymaganej nierówności. Tak więc: potrzebujemy wielkości próbki większej niż 12.ΔK<0K

Biorąc to pod uwagę, korzenie są dla kwadratoweK

K1,K2=(n+2)±n212n+42=n2+1±(n2)2+13n

Ogólnie: dla próbki o wielkości i liczby regresorów tak, że mamy Dla na przykład, jeśli wówczas okazuje się, że liczba regresorów musi wynosić aby nierówność się utrzymała. Interesujące jest to, że dla niewielkiej liczby regresorów MLE jest lepszy w sensie MSE.n>12KK1<K<K2

MSE(σ^ML2)>MSE(s2)
n=505<K<47

DODATEK Można zapisać
równanie dla pierwiastków kwadratykiK

K1,K2=(n2+1)±(n2+1)24n
co, jak sądzę , po szybkim spojrzeniu sugeruje, że dolny root zawsze będzie być (biorąc pod uwagę ograniczenie „liczby całkowitej”) - więc MLE będzie efektywny pod względem MSE, gdy regresory będą mieć maksymalnie dla dowolnej (skończonej) wielkości próbki.55

1
Cóż, warunkiem teoretycznym momentu dołączonego do specyfikacji jest . W stopniu, w jakim używamy przykładowego analogu jako estymatora dla , powiedziałbym, że tak. E(uuX)=σ2E(uuX)σ2
Alecos Papadopoulos,

1
@AlecosPapadopoulos „Próbka analogowa”, jak twierdziłbym, wziąłaby za mianownik, tj. Byłaby taka sama jak MLE. Jeśli zastępujesz teoretyczne oczekiwanie empirycznym oczekiwaniem, jak możesz skończyć z w mianowniku? Naturalne warunki momentu należy i i zastępując z oczekiwaniami empirycznych dostanie ty w mianowniku. nnKE[Xk(YXβ)]=0E[(YXβ)2]=σ2n
facet

2
@guy To ważna uwaga. Korekta stopni swobody zawsze była dla mnie zagadnieniem konceptualnym w metodzie momentów. W końcu „próbka analogowa” nie jest ścisłym pojęciem i jest powiązana z pojęciem „próbka oznacza” poprzez asymptotyczną zgodność tego ostatniego z oczekiwaną wartością - ale w asymptotycznym układzie, dzielenie przez zamiast nie nie robić żadnej różnicy. Dla mnie pozostaje to nierozwiązana sprawa. Z drugiej strony, estymator maksymalnego prawdopodobieństwa jest konkretnie określony przez równania prawdopodobieństwa i może, ale nie musi pokrywać się z MoM. (CONTD)nKn
Alecos Papadopoulos

1
@guy (CONTD). Więc to, co mówią, że estymator MoM wariancji błędu w tym przypadku jest maksymalny estymator prawdopodobieństwa, a więc wynik I pochodzić nie porównuje mama z ML, ale ML z OLS (przy czym ten ostatni kategorii we własnym zakresie). .. tak, można argumentować, że tak jest (również) w tym przypadku.
Alecos Papadopoulos

1
Czy istnieje coś takiego jak „estymator” MoM? To „estymator” MoM, prawda? Jeśli weźmiesz losowo wybrane resztki OLS, , to . To idealnie dobry moment, prawda? I daje idealnie dobrą MoM dla , nie? Mianowicie zwykły estymator OLS, . eE(e2)=nknσ2σ2s2
Bill

17

„W tym artykule rozważamy nową parametryzację dwuparametrowego odwrotnego rozkładu Gaussa. Znajdujemy estymatory parametrów odwrotnego rozkładu Gaussa metodą momentów i metodą największego prawdopodobieństwa. Następnie porównujemy wydajność estymatory dla obu metod oparte na ich odchyleniu i średnim błędzie kwadratowym (MSE). W tym celu ustalamy wartości parametrów, przeprowadzamy symulacje oraz raportujemy MSE i odchylenie dla oszacowań uzyskanych za pomocą obu metod. Wniosek jest taki, że gdy wielkości próbek wynoszą 10, metoda momentów wydaje się być bardziej wydajna niż metoda maksymalnego prawdopodobieństwa dla oszacowań obu parametrów (lambda i theta) .... " czytaj więcej

W dzisiejszych czasach nie można (lub nie należy) ufać wszystkim opublikowanym, ale ostatnia strona artykułu wydaje się obiecująca. Mam nadzieję, że adres ten zostanie dodany retrospektywnie.


1
Jeśli dobrze rozumiem tabele w tym artykule, to uważam, że masz rację - przy niektórych rozmiarach próby metoda momentów (MME w artykule) wydaje się przewyższać MLE, przynajmniej po oszacowaniu . (Jednak niektóre wyniki symulacji wydają się więcej niż trochę dziwne - np. Progresja skrajnej prawej kolumny na p49.) - jest to dla mnie bardzo interesujący wynik, ponieważ odwrotny gaussian jest stosunkowo szeroko stosowany. θ
Glen_b

Dobre znalezisko! Nawet jeśli wyniki są nieaktualne, miło jest widzieć gdzieś wyraźnie stwierdzone twierdzenie.
Ben Ogorek

Artykuł, do którego podłączyłem w mojej odpowiedzi, pochodzi z pracy magisterskiej, która jest dostępna w całości tutaj: digi.library.tu.ac.th/thesis/st/0415 Patrz np. Sekcja 5.2 dla odpowiedniego stwierdzenia. Sześć osób, w tym profesor zwyczajny, poparło ten wynik.
Hibernacja

14

Według symulacji przeprowadzonych przez Hoskinga i Wallisa (1987) w „Estymacji parametrów i kwantyli dla uogólnionego rozkładu Pareto” parametry dwuparametrowego uogólnionego rozkładu Pareto podane przez cdf

G(y)={1(1+ξyβ)1ξξ01exp(yβ)ξ=0

lub gęstość

g(y)={1β(1+ξyβ)11ξξ01βexp(yβ)ξ=0

są bardziej wiarygodne, jeśli są szacowane za pomocą MOM, a nie ML. Dotyczy to próbek do wielkości 500. Szacunki MOM są podane przez

β^=y¯y2¯2(y2¯(y¯)2)

i

ξ^=12(y¯)22(y2¯(y¯)2)

z

y2¯=1ni=1nyi2

Artykuł zawiera sporo literówek (przynajmniej moja wersja). Wyniki dla wyżej wymienionych estymatorów MOM zostały uprzejmie dostarczone przez „heropup” w tym wątku .


Dzięki za to. To jeden z najprostszych przykładów tego, czego do tej pory szukałem.
Glen_b

13

Znalazłem jedno:

Do asymetrycznego wykładniczego rozkładu mocy

f(x)=ασΓ(1α)κ1+κ2exp(κασα[(xθ)+]α1κασα[(xθ)]α),α,σ,κ>0, and x,θR

wyniki symulacji Delicado i Gorii (2008) sugerują, że dla niektórych parametrów przy mniejszych rozmiarach próby metoda momentów może przewyższać MLE; na przykład w known- przypadku próbek o rozmiarze 10, podczas szacowania , MSE MOM jest mniejsza niż ML.θσ

Delicado i Goria (2008),
Małe porównanie porównania metod maksymalnego prawdopodobieństwa, momentów i momentów L dla asymetrycznego wykładniczego rozkładu mocy,
Journal Computational Statistics & Data Analysis
Volume 52 Issue 3, January, str. 1661-1673

(patrz także http://www-eio.upc.es/~delicado/my-public-files/LmomAEP.pdf )


13

Metoda momentów (MM) może pobić podejście oparte na maksymalnym prawdopodobieństwie (ML), gdy możliwe jest określenie tylko niektórych momentów populacji. Jeśli rozkład jest źle zdefiniowany, estymatory ML nie będą spójne.

Zakładając skończone momenty i obserwacje, MM może zapewnić dobre estymatory z ładnymi właściwościami asymptotycznymi.

Przykład: Niech będzie próbką , gdzie jest nieznaną funkcją gęstości prawdopodobieństwa. Określić o th chwili i uważa, że procentowa jest oszacowanie dalej chwili .X1,,XnXff:RR+νk=Rxkf(x)dxkν4

Niech , a następnie przyjmując, że , centralne twierdzenie o limicie gwarantuje, że gdzie „ ” oznacza „zbiega się w dystrybucji do” . Ponadto, według twierdzenia Słuckiego,Xk¯=1ni=1nXikν8<

n(X4¯ν4)dN(0,ν8ν42),
d

n(X4¯ν4)X8¯X4¯2dN(0,1)
od (zbieżność prawdopodobieństwa).X8¯X4¯2Pν8ν42

Oznacza to, że możemy wyciągnąć (przybliżone) wnioski dla , stosując podejście momentowe (dla dużych próbek), musimy jedynie przyjąć pewne założenia dotyczące interesujących momentów populacji. W tym przypadku nie można zdefiniować estymatorów maksymalnego prawdopodobieństwa bez znajomości kształtu . fν4f

Badanie symulacyjne:

Patriota i in. (2009) przeprowadził kilka badań symulacyjnych w celu weryfikacji wskaźników odrzucenia testów hipotez w modelu błędów zmiennych. Wyniki sugerują, że metoda MM generuje poziomy błędów przy hipotezie zerowej bliższej poziomowi nominalnemu niż poziom ML dla małych próbek.

Nota historyczna:

Metodę chwil zaproponował K. Pearson w 1894 r. „Wkład w matematyczną teorię ewolucji”. Metodę największego prawdopodobieństwa zaproponował RA Fisher w 1922 r. „O matematycznych podstawach statystyki teoretycznej”. Oba artykuły zostały opublikowane w Philosophical Transactions of Royal Society of London, Series A.

Odniesienie:

Fisher, RA (1922). O matematycznych podstawach statystyki teoretycznej, transakcjach filozoficznych Royal Society of London, Seria A, 222, 309-368.

Patriota, AG, Bolfarine, H, de Castro, M (2009). Heteroscedastyczny model strukturalnych błędów w zmiennych z błędem równania, Metodologia statystyczna 6 (4), 408-423 ( pdf )

Pearson, K (1894). Wkład w matematyczną teorię ewolucji, transakcje filozoficzne Royal Society of London, Seria A, 185, 71-110.


1
Twoja odpowiedź brzmi jak potencjalnie interesująca. Czy jesteś w stanie trochę się rozwinąć? Nie jestem pewien, czy całkiem rozumiem.
Glen_b

@Glen_b, proszę sprawdź, czy mój ostatni dodatek Ci pomaga.
Alexandre Patriota

Dziękuję za to; Wierzę, że rozumiem, o co ci chodzi.
Glen_b

OK, jest to ogólny komentarz, ale myślę, że odpowiada na twoje pytanie. Jeśli podasz całkowitą informację o zachowaniu danych, całkiem naturalne jest, że podejście ML przewyższa podejście MM. W pracy [1] przeprowadzamy kilka badań symulacyjnych w celu weryfikacji wskaźników odrzucania testów hipotez w modelu błędów zmiennych. Wyniki sugerują, że metoda MM generuje poziomy błędów przy hipotezie zerowej bliższej poziomowi nominalnemu niż poziom ML dla małych próbek. [1] ime.usp.br/~patriota/STAMET-D-08-00113-revised-v2.pdf
Alexandre Patriota

Jest to nietypowy przykład metody momentów (MoM). MoM jest zwykle stosowany w problemach estymacji parametrycznej, w których istnieje dobrze zdefiniowana rodzina rozkładów parametrycznych. Z drugiej strony możesz tutaj zdefiniować nieparametryczne oszacowanie maksymalnego prawdopodobieństwa. Empiryczna funkcja rozkładu, powiedzmy F-kapelusz, jest nieparametrycznym oszacowaniem maksymalnego prawdopodobieństwa nieznanej funkcji rozkładu F. Biorąc pod uwagę, że 4. moment jest funkcją F, nieparametryczny MLE 4. momentu jest 4. momentem F-kapelusza . Jest to to samo co przykładowy 4. moment.
vqv

5

Dodatkowe źródła na korzyść MOM:

Hong, HP i W. Ye. 2014. Analiza ekstremalnych obciążeń śniegiem gruntu dla Kanady z wykorzystaniem zapisów głębokości śniegu . Zagrożenia naturalne 73 (2): 355–371.

Zastosowanie MML może dać nierealistyczne prognozy, jeśli wielkość próby jest niewielka (Hosking i in. 1985; Martin and Stedinger 2000).


Martins, ES i JR Stedinger. 2000. Uogólnione estymatory kwantyli o największej wartości prawdopodobieństwa dla danych hydrologicznych . Badania zasobów wodnych 36 (3): 737–744.

Abstrakcyjny:

Trzyparametrowy rozkład wartości ekstremalnej (GEV) znalazł szerokie zastosowanie do opisywania rocznych powodzi, opadów deszczu, prędkości wiatru, wysokości fal, głębokości śniegu i innych maksimów. Poprzednie badania pokazują, że estymatory maksymalnego prawdopodobieństwa (MLE) dla małych próbek parametrów są niestabilne i zalecają estymatory momentu L. Nowsze badania pokazują, że metoda estymatorów kwantyli momentów ma dla 00,25 <κ <0,30 mniejszy błąd pierwiastkowy średni kwadratowy niż L momentów i MLE. Badanie zachowania MLE w małych próbkach pokazuje, że można wygenerować absurdalne wartości parametru κ kształtu GEV. Zastosowanie wcześniejszego rozkładu bayesowskiego w celu ograniczenia wartości κ do statystycznie / fizycznie uzasadnionego zakresu w uogólnionej analizie maksymalnego prawdopodobieństwa (GML) eliminuje ten problem.

W sekcjach Wprowadzenie i przegląd literatury cytują dodatkowe artykuły, w których stwierdzono, że MOM w niektórych przypadkach przewyższa MLE (ponownie modelowanie wartości ekstremalnej), np.

Hosking i in. [1985a] pokazują, że estymatory parametrów MLE dla małych próbek są bardzo niestabilne i zalecają estymatory momentu ważonego prawdopodobieństwem (PWM), które są równoważne estymatorom momentu L [Hosking, 1990]. [...]

Hosking i in. [1985a] wykazał, że estymatory momentów ważonych prawdopodobieństwem (PM) lub równoważnych momentów L (LM) dla rozkładu GEV są lepsze niż estymatory największego prawdopodobieństwa (MLE) pod względem odchylenia i wariancji dla wielkości próbek od 15 do 100. Ostatnio Madsen i in. [1997a] wykazał, że estymatory kwantyli metody momentów (MOM) mają mniejsze RMSE (pierwiastek średni-kwadratowy ror) dla -0,25 <K <0,30 niż LM i MLE przy szacowaniu 100-letniego zdarzenia dla próbek o wielkości 10-50 . MLE są preferowane tylko wtedy, gdy K> 0,3 i rozmiary próbek są niewielkie (n> = 50).

K (kappa) jest parametrem kształtu GEV.

artykuły pojawiające się w cytatach:

Hosking J, Wallis J, Wood E (1985) Oszacowanie uogólnionego rozkładu wartości ekstremalnych za pomocą momentów ważonych prawdopodobieństwem . Technometrics 27: 251–261.

Madsen, H., PF Rasmussen i D. Rosbjerg (1997) Porównanie rocznych metod szeregów maksymalnych i częściowych czasów trwania do modelowania ekstremalnych zdarzeń hydrologicznych , 1, Modelowanie w terenie, Zasoby wodne. Res., 33 (4), 747–758.

Hosking, JRM, L-momenty: Analiza i estymacja rozkładów z wykorzystaniem liniowych kombinacji statystyki rzędu , JR Stat. Soc., Ser. B, 52, 105-124, 1990.


Ponadto mam takie same doświadczenia, jak wnioski zawarte w powyższych artykułach, w przypadku modelowania ekstremalnych zdarzeń przy małej i średniej wielkości próby (typowo <50-100) MLE może dawać nierealne wyniki, symulacja pokazuje, że MOM jest bardziej solidny i ma mniejszy RMSE.


3

Odpowiadając na to: Szacując parametry dwumianu natknąłem się na ten artykuł:

Ingram Olkin, A John Petkau, James V Zidek: Porównanie estymatorów N dla rozkładu dwumianowego. Jasa 1981.

co daje przykład, w którym metoda momentów, przynajmniej w niektórych przypadkach, przekracza maksymalne prawdopodobieństwo. Problemem jest oszacowanie w rozkładzie dwumianowym którym oba parametry są nieznane. Pojawia się na przykład przy próbie oszacowania liczebności zwierząt, gdy nie można zobaczyć wszystkich zwierząt, a prawdopodobieństwo obserwacji również jest nieznane.Bin ( N , p ) strNBin(N,p)p


Jedną z rzeczy, która jest bardzo miła w tym przykładzie, jest to, że bardzo łatwo jest przekazać sytuację - wiele osób zna dwumianowy (przynajmniej w koncepcji, jeśli nie zawsze z nazwą).
Glen_b
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.