Jaka jest metoda momentów i czym różni się od MLE?


13

Zasadniczo wydaje się, że metoda momentów polega jedynie na dopasowaniu obserwowanej średniej próbki lub wariancji do momentów teoretycznych w celu uzyskania oszacowań parametrów. Rozumiem, że jest to często to samo co MLE dla rodzin wykładniczych.

Jednak trudno jest znaleźć jasną definicję metody momentów i jasną dyskusję na temat tego, dlaczego MLE wydaje się być ogólnie uprzywilejowanym, nawet jeśli trudniej jest znaleźć tryb funkcji prawdopodobieństwa.

To pytanie Czy metoda MLE jest bardziej wydajna niż metoda Moment? ma cytat z prof. Donalda Rubina (z Harvardu), który mówi, że od lat 40. wszyscy wiedzą, że MLE pokonuje MoM, ale chciałbym poznać historię lub uzasadnienie tego.


2
Oto prezentacja omawiająca zalety / wady MLE / MoM: gradquant.ucr.edu/wp-content/uploads/2013/11/…
Jon

Kilka odpowiedzi na temat metody omawiania chwil w witrynie może być pomocnych w zrozumieniu.
Glen_b


1
@Jon: Dead link.
Ben - Przywróć Monikę

Odpowiedzi:


7

W MoM estymator jest wybierany tak, aby jakaś funkcja miała warunkowe oczekiwanie równe zero. Np. . Często oczekiwanie zależy od x . Zazwyczaj jest to przekształcane w problem minimalizacji formy kwadratowej w tych oczekiwaniach za pomocą macierzy masy.mi[sol(y,x,θ)]=0x

W MLE estymator maksymalizuje funkcję prawdopodobieństwa dziennika.

W szerokim uogólnieniu MLE przyjmuje bardziej rygorystyczne założenia (pełna gęstość), a zatem jest zazwyczaj mniej odporny, ale bardziej wydajny, jeśli założenia są spełnione (osiąga dolną granicę Kramer Rao w przypadku asymptotycznej wariancji).

W niektórych przypadkach oba się pokrywają, OLS jest jednym z godnych uwagi przykładów, w których rozwiązanie analityczne jest identyczne, a zatem estymator zachowuje się w ten sam sposób.

W pewnym sensie można myśleć o MLE (w prawie wszystkich przypadkach) jako estymatorze MoM, ponieważ estymator ustawia wartość oczekiwaną gradientu funkcji prawdopodobieństwa logarytmu na zero. W tym sensie istnieją przypadki, w których gęstość jest nieprawidłowa, ale MLE jest nadal spójny, ponieważ warunki pierwszego rzędu są nadal spełnione. Następnie MLE określa się jako „quasi-ML”.


4
Zazwyczaj te z MoM odnoszą się do przypadku, w którym funkcja g jest pewną mocą, więc oczekiwanie jest chwilą. To bardziej przypomina „uogólnioną metodę momentów”.
kjetil b halvorsen

3
OLS to metoda estymatora momentów (MoME). Jest to także estymator maksymalnego prawdopodobieństwa (MLE), ale tylko w przypadku szczególnego prawdopodobieństwa - normalnego. W przypadku innej dystrybucji OLS nie będzie MLE, podczas gdy nadal jest MoME.
Richard Hardy,

2

Jaka jest metoda chwil?

Jest ładny artykuł na ten temat na Wikipedii.

https://en.m.wikipedia.org/wiki/Method_of_moments_(statistics)

Oznacza to, że estymujesz parametry populacji, wybierając parametry tak, że rozkład populacji ma momenty równoważne momentom obserwowanym w próbie.

Czym różni się od MLE

Oszacowanie maksymalnego prawdopodobieństwa minimalizuje funkcję wiarygodności. W niektórych przypadkach to minimum można czasem wyrazić jako ustawienie parametrów populacji równych parametrom próby.

μ=x¯μ

μ=1/nln(xja)=ln(x)¯

Podczas gdy rozwiązanie MoM jest w trakcie rozwiązywania

mixp(μ+12)σ2))=x¯
μ=ln(x¯)-12)σ2)


Tak więc MoM jest praktycznym sposobem oszacowania parametrów, prowadzącym często do dokładnie tego samego wyniku co MLE (ponieważ momenty próbki często pokrywają się z momentami populacji, np. Średnia próbki jest rozłożona wokół średniej populacji, i do pewnego współczynnika / stronniczości, działa bardzo dobrze). MLE ma silniejsze podstawy teoretyczne i na przykład umożliwia oszacowanie błędów przy użyciu macierzy Fishera (lub jej oszacowań), i jest to znacznie bardziej naturalne podejście w przypadku problemów z regresją (nie próbowałem tego, ale sądzę, że MoM do rozwiązywania parametrów w prostej regresji liniowejnie działa łatwo i może dawać złe wyniki. W odpowiedzi superpronkera wydaje się, że dzieje się tak przez pewną minimalizację funkcji. W przypadku MLE ta minimalizacja wyraża większe prawdopodobieństwo, ale zastanawiam się, czy reprezentuje coś podobnego dla MoM).


1

Soorry, nie mogę pominąć komentarzy ..

MLE przyjmuje bardziej rygorystyczne założenia (pełna gęstość), a zatem jest zazwyczaj mniej niezawodny, ale bardziej wydajny, jeśli założenia są spełnione

W rzeczywistości na MITx „ Podstawy statystyki ” uczymy się czegoś przeciwnego, że MoM opiera się na określonym równaniu momentów, a jeśli wybieramy niewłaściwą gęstość, robimy całkowicie źle, podczas gdy MLE jest bardziej odporny, ponieważ we wszystkich przypadkach minimalizujemy rozbieżność KD ..


Brak reputacji nie jest usprawiedliwionym usprawiedliwieniem wykorzystania miejsca na odpowiedź na komentarz.
Michael R. Chernick
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.