Kiedy działa maksymalne prawdopodobieństwo, a kiedy nie?

Jestem zdezorientowany co do metody maksymalnego prawdopodobieństwa w porównaniu do np. Obliczania średniej arytmetycznej.

Kiedy i dlaczego maksymalne prawdopodobieństwo daje „lepsze” oszacowania niż np. Średnia arytmetyczna? Jak to można zweryfikować?

maximum-likelihood

— mavavilj
źródło

+1 To dobre pytanie, które należy zadać przy każdej procedurze statystycznej.

— whuber

Nie sądzę, aby to pytanie było zbyt niejasne. Z pewnością PO jest niejasny, ale właśnie dlatego pytają. Kwestie dotyczące charakteru MLE i średnich arytmetycznych powinny zostać wyjaśnione z dobrą odpowiedzią.

— Gung - Przywróć Monikę

Co rozumiesz przez „lepszy”? I dlaczego średnia arytmetyczna byłaby dobrym estymatorem dowolnego parametru?

— Xi'an

Na pytanie nie można odpowiedzieć bez ustalenia najpierw definicji „lepszej”, tj. Funkcji straty lub innego kryterium, które pozwala porównać estymatory. Na przykład MLE jest wydajny, co oznacza, że nie ma estymatora o mniejszej wariancji asymptotycznej (w niektórych warunkach regularności). I na przykład MLE może być niedopuszczalny, jak wykazał efekt Stein , co oznacza, że istnieją estymatory o mniejszym ryzyku kwadratowym dla wszystkich wartości parametru pod pewnymi ograniczeniami dotyczącymi rozkładu próbki i wymiaru parametru.

— Xi'an

@ Xi'an To brzmi jak podstawa odpowiedzi.

— whuber

Odpowiedzi:

Chociaż średnia arytmetyczna może brzmieć jak „naturalny” estymator, można zapytać, dlaczego należy ją preferować w stosunku do MLE! Jedyną pewną właściwością związaną ze średnią arytmetyczną jest to, że jest to obiektywny estymator gdy zdefiniowane jest to oczekiwanie. (Pomyśl o rozkładzie Cauchy'ego jako kontrprzykładzie.) Później rzeczywiście cieszy się szerokim zakresem właściwości w warunkach regularności dotyczących funkcji prawdopodobieństwa. Aby pożyczyć ze strony wikipedii , MLE jest $\bar{x}$ $\mathbb{E}[X]$

zgodny
asymptotycznie normalny
wydajny, ponieważ osiąga minimalną wariancję asymptotyczną
niezmiennik pod transformacjami bijective
w zestawie parametrów nawet dla ograniczonych zestawów parametrów

W porównaniu ze średnią arytmetyczną większość tych właściwości jest również spełniona dla wystarczająco regularnych rozkładów. Z wyjątkiem 4 i 5. W przypadku rodzin wykładniczych MLE i średnia arytmetyczna są identyczne do oszacowania parametru w średniej parametryzacji (ale nie dla innych parametryzacji). I istnieje MLE dla próbki z rozkładu Cauchy'ego.

Jednakże, przechodząc do właściwości optymalizujących skończoną próbkę, takich jak minimaksymalność lub dopuszczalność, może się zdarzyć, że MLE nie jest ani minimaksem, ani dopuszczalnym. Na przykład efekt Steina pokazuje, że istnieją estymatory o mniejszym ryzyku kwadratowym dla wszystkich wartości parametru pod pewnymi ograniczeniami dotyczącymi rozkładu próbki i wymiaru parametru. Tak jest w przypadku, gdy i . $x\sim\mathcal{N}_p(\theta,I_p)$ $p\ge 3$

— Xi'an
źródło

Aby wyjaśnić kwestię mle - 5 wymienionych właściwości znajduje się w kontekście założonego modelu dla populacji.

— probabilislogiczny

@CagdasOzgenc: tak dominacja jest asymptotycznie nieistotny ale trzyma dla wszystkich

..! Jednak zakres estymatorów minimaksa Jamesa-Steina zmniejsza się za pomocą

ponieważ stała skurczu wynosi od

gdzie

jest wymiarem, a

wariancją jednego elementu obserwacji. Jednak nigdy nie słyszałem o asymptotycznej minimalizacji.

n^{'} s

$n's$

n

$n$

0

$0$

2 (p - 2) σ^{2} / n

$2(p-2)\sigma^2/n$

p

$p$

σ^{2}

$\sigma^2$

— Xi'an

Zinterpretujmy „obliczanie średniej arytmetycznej” jako oszacowanie przy użyciu metody momentów (MoM). Uważam, że jest to zgodne z pierwotnym pytaniem, ponieważ metoda zastępuje średnie próbne teoretycznymi. Uwzględnia również obawy @ Xi'an dotyczące arbitralnego parametru (z dowolnego modelu).

Jeśli nadal jesteś ze mną, myślę, że doskonałym miejscem do zrobienia są Przykłady, w których metoda chwil może pokonać maksymalne prawdopodobieństwo w małych próbkach? Tekst pytania wskazuje, że „estymatory największej wiarygodności (MLE) są asymptotycznie skuteczne; widzimy praktyczny wynik w tym, że często wypadają lepiej niż szacunki metodą momentów (MoM) (gdy się różnią)”, i poszukują konkretnych przypadków, w których estymatory MoM osiągnąć mniejszy średni błąd kwadratu niż jego odpowiednik MLE. Kilka podanych przykładów dotyczy regresji liniowej, dwuparametrowego odwrotnego rozkładu Gaussa i asymetrycznego wykładniczego rozkładu mocy.

Ta idea „wydajności asymptotycznej” oznacza, że estymatory maksymalnego prawdopodobieństwa są prawdopodobnie bliskie wykorzystania danych z pełnym potencjałem (do oszacowania danego parametru), co jest gwarancją, której nie otrzymujesz metodą momentów w ogóle. Podczas gdy maksymalne prawdopodobieństwo nie zawsze jest „lepsze” niż praca ze średnimi, ta właściwość wydajności (choćby w granicach) sprawia, że jest to metoda najczęściej stosowana. Oczywiście contrarian może argumentować, że wraz ze wzrostem wielkości zbiorów danych, jeśli wskazujesz właściwy cel za pomocą funkcji średnich, idź z nim.

— Ben Ogorek
źródło

Istnieje kilka znanych przykładów, w których maksymalne prawdopodobieństwo (ML) nie zapewnia najlepszego rozwiązania. Zobacz artykuł Luciena Le Cam z 1990 r .: „Maksymalne prawdopodobieństwo: wprowadzenie” [1] , który pochodzi z jego zaproszonych wykładów na Univ. z Maryland.

Przykład, który najbardziej mi się podoba, ponieważ jest tak prosty, to:

$X_j$ $Y_j$ $j = 1,...,n$ $X_j\sim N(\mu_j,\sigma^2)$ $Y_j\sim N(\mu_j,\sigma^2)$ $j$ $X_j$ $Y_j$ $j$ $\sigma^2$

Nie zepsuję zabawy, dając ci odpowiedź, ale (nic dziwnego) istnieją dwa sposoby rozwiązania tego za pomocą ML i dają różne rozwiązania. Jedna to „średnia arytmetyczna” kwadratów reszt (jak można się spodziewać), a druga to połowa średniej arytmetycznej. Możesz znaleźć odpowiedź tutaj na mojej stronie Github.

— idnavid
źródło