Nie sądzę, aby to pytanie było zbyt niejasne. Z pewnością PO jest niejasny, ale właśnie dlatego pytają. Kwestie dotyczące charakteru MLE i średnich arytmetycznych powinny zostać wyjaśnione z dobrą odpowiedzią.
Na pytanie nie można odpowiedzieć bez ustalenia najpierw definicji „lepszej”, tj. Funkcji straty lub innego kryterium, które pozwala porównać estymatory. Na przykład MLE jest wydajny, co oznacza, że nie ma estymatora o mniejszej wariancji asymptotycznej (w niektórych warunkach regularności). I na przykład MLE może być niedopuszczalny, jak wykazał efekt Stein , co oznacza, że istnieją estymatory o mniejszym ryzyku kwadratowym dla wszystkich wartości parametru pod pewnymi ograniczeniami dotyczącymi rozkładu próbki i wymiaru parametru.
Chociaż średnia arytmetyczna może brzmieć jak „naturalny” estymator, można zapytać, dlaczego należy ją preferować w stosunku do MLE! Jedyną pewną właściwością związaną ze średnią arytmetyczną jest to, że jest to obiektywny estymator E [ X ], gdy zdefiniowane jest to oczekiwanie. (Pomyśl o rozkładzie Cauchy'ego jako kontrprzykładzie.) Później rzeczywiście cieszy się szerokim zakresem właściwości w warunkach regularności dotyczących funkcji prawdopodobieństwa. Aby pożyczyć ze strony wikipedii , MLE jestx¯E[X]
zgodny
asymptotycznie normalny
wydajny, ponieważ osiąga minimalną wariancję asymptotyczną
niezmiennik pod transformacjami bijective
w zestawie parametrów nawet dla ograniczonych zestawów parametrów
W porównaniu ze średnią arytmetyczną większość tych właściwości jest również spełniona dla wystarczająco regularnych rozkładów. Z wyjątkiem 4 i 5. W przypadku rodzin wykładniczych MLE i średnia arytmetyczna są identyczne do oszacowania parametru w średniej parametryzacji (ale nie dla innych parametryzacji). I istnieje MLE dla próbki z rozkładu Cauchy'ego.
Jednakże, przechodząc do właściwości optymalizujących skończoną próbkę, takich jak minimaksymalność lub dopuszczalność, może się zdarzyć, że MLE nie jest ani minimaksem, ani dopuszczalnym. Na przykład efekt Steina pokazuje, że istnieją estymatory o mniejszym ryzyku kwadratowym dla wszystkich wartości parametru pod pewnymi ograniczeniami dotyczącymi rozkładu próbki i wymiaru parametru. Tak jest w przypadku, gdy i p ≥ 3 .x∼Np(θ,Ip)p≥3
@CagdasOzgenc: tak dominacja jest asymptotycznie nieistotny ale trzyma dla wszystkich ..! Jednak zakres estymatorów minimaksa Jamesa-Steina zmniejsza się za pomocą n, ponieważ stała skurczu wynosi od 0 do 2 ( p - 2 ) σ 2 / n, gdzie p jest wymiarem, a σ 2 wariancją jednego elementu obserwacji. Jednak nigdy nie słyszałem o asymptotycznej minimalizacji. n′sn02(p−2)σ2/npσ2
Zinterpretujmy „obliczanie średniej arytmetycznej” jako oszacowanie przy użyciu metody momentów (MoM). Uważam, że jest to zgodne z pierwotnym pytaniem, ponieważ metoda zastępuje średnie próbne teoretycznymi. Uwzględnia również obawy @ Xi'an dotyczące arbitralnego parametru (z dowolnego modelu).
Jeśli nadal jesteś ze mną, myślę, że doskonałym miejscem do zrobienia są Przykłady, w których metoda chwil może pokonać maksymalne prawdopodobieństwo w małych próbkach? Tekst pytania wskazuje, że „estymatory największej wiarygodności (MLE) są asymptotycznie skuteczne; widzimy praktyczny wynik w tym, że często wypadają lepiej niż szacunki metodą momentów (MoM) (gdy się różnią)”, i poszukują konkretnych przypadków, w których estymatory MoM osiągnąć mniejszy średni błąd kwadratu niż jego odpowiednik MLE. Kilka podanych przykładów dotyczy regresji liniowej, dwuparametrowego odwrotnego rozkładu Gaussa i asymetrycznego wykładniczego rozkładu mocy.
Ta idea „wydajności asymptotycznej” oznacza, że estymatory maksymalnego prawdopodobieństwa są prawdopodobnie bliskie wykorzystania danych z pełnym potencjałem (do oszacowania danego parametru), co jest gwarancją, której nie otrzymujesz metodą momentów w ogóle. Podczas gdy maksymalne prawdopodobieństwo nie zawsze jest „lepsze” niż praca ze średnimi, ta właściwość wydajności (choćby w granicach) sprawia, że jest to metoda najczęściej stosowana. Oczywiście contrarian może argumentować, że wraz ze wzrostem wielkości zbiorów danych, jeśli wskazujesz właściwy cel za pomocą funkcji średnich, idź z nim.
Istnieje kilka znanych przykładów, w których maksymalne prawdopodobieństwo (ML) nie zapewnia najlepszego rozwiązania. Zobacz artykuł Luciena Le Cam z 1990 r .: „Maksymalne prawdopodobieństwo: wprowadzenie” [1] , który pochodzi z jego zaproszonych wykładów na Univ. z Maryland.
Przykład, który najbardziej mi się podoba, ponieważ jest tak prosty, to:
XjYjj=1,...,nXj∼N(μj,σ2)Yj∼N(μj,σ2)jXjYjjσ2
Nie zepsuję zabawy, dając ci odpowiedź, ale (nic dziwnego) istnieją dwa sposoby rozwiązania tego za pomocą ML i dają różne rozwiązania. Jedna to „średnia arytmetyczna” kwadratów reszt (jak można się spodziewać), a druga to połowa średniej arytmetycznej. Możesz znaleźć odpowiedź tutaj na mojej stronie Github.
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.