W jaki sposób oszacowanie maksymalnego prawdopodobieństwa ma przybliżony rozkład normalny?

Czytałem o MLE jako metodzie generowania dopasowanego rozkładu.

Natknąłem się na stwierdzenie , że szacunki maksymalnego prawdopodobieństwa „mają przybliżone rozkłady normalne”.

Czy to oznacza, że jeśli zastosuję MLE wielokrotnie w stosunku do moich danych i rodziny dystrybucji, do której próbuję się dopasować, modele, które otrzymam, będą normalnie dystrybuowane? Jak dokładnie sekwencja dystrybucji ma rozkład?

normal-distribution estimation maximum-likelihood

— Matt O'Brien
źródło

Jeśli zastosujesz MLE wielokrotnie do swoich danych, to - pomijając wszelkie błędy obliczeniowe - za każdym razem uzyskasz dokładnie takie same wyniki. Zamiast tego możesz pomyśleć o tym, w jaki sposób Twoje dane mogłyby wyglądać inaczej. Gdy dane się różnią, zmieniają się również oszacowania ML oparte na nich i właśnie ta wynikowa zmienność szacunków jest bardzo interesująca.

— whuber

Ach tak ... nie rozważałem wielkości próby ...

— Matt O'Brien

Spójrz na dyskusję tutaj: andrewgelman.com/2012/07/05/…

— kjetil b halvorsen

Estymatory to statystyki, a statystyki mają rozkłady próbkowania (to znaczy mówimy o sytuacji, w której ciągle rysujesz próbki tego samego rozmiaru i przyglądamy się rozkładowi otrzymanych szacunków, po jednym dla każdej próbki).

Cytat odnosi się do rozkładu MLE, gdy wielkość próby zbliża się do nieskończoności.

Rozważmy więc wyraźny przykład, parametr rozkładu wykładniczego (przy użyciu parametryzacji skali, a nie parametryzacji szybkości).

f (x; μ) = \frac{_{1}}{^{μ}} e^{- \frac{x}{μ}}; x > 0, μ > 0

$f(x;\mu) = \frac{_1}{^\mu} e^{-\frac{x}{\mu}};\quad x>0,\quad \mu>0$

W tym przypadku . Twierdzenie to daje nam, że wraz ze wzrostem wielkości próbki , rozkład (odpowiednio znormalizowanego) (na danych wykładniczych) stanie się bardziej normalny. $\hat \mu = \bar x$ $n$ $\bar X$

wprowadź opis zdjęcia tutaj

Jeśli weźmiemy powtórzone próbki, każda o rozmiarze 1, wynikowa gęstość średnich próbek zostanie podana na lewym górnym wykresie. Jeśli weźmiemy powtórzone próbki, każda o rozmiarze 2, wynikowa gęstość średnich próbek zostanie podana w prawym górnym wykresie; do czasu n = 25, w prawym dolnym rogu, rozkład średnich próbek już zaczął wyglądać znacznie bardziej normalnie.

(W tym przypadku spodziewalibyśmy się już, że tak jest z powodu CLT. Ale rozkład również musi zbliżać się do normalności, ponieważ jest to ML dla parametru częstości ... i nie można tego uzyskać z CLT - przynajmniej nie bezpośrednio * - ponieważ nie mówimy już o standaryzowanych środkach, o co chodzi w CLT) $1/\bar X$ $\lambda=1/\mu$

Rozważmy teraz parametr kształtu rozkładu gamma ze znaną średnią ~~skali~~ (tutaj przy użyciu parametryzacji średniej i kształtu zamiast skali i kształtu).

W tym przypadku estymator nie jest formą zamkniętą, a CLT nie ma do niego zastosowania (ponownie, przynajmniej nie bezpośrednio *), ale jednak argmax funkcji wiarygodności jest MLE. W miarę pobierania coraz większych próbek rozkład próbkowania oszacowania parametru kształtu stanie się bardziej normalny.

wprowadź opis zdjęcia tutaj

Są to szacunki gęstości jądra z 10000 zestawów oszacowań ML parametru kształtu gamma (2,2), dla wskazanych wielkości próby (pierwsze dwa zestawy wyników były bardzo ciężkie; zostały one nieco obcięte, więc widać kształt w pobliżu trybu). W tym przypadku kształt zbliżony do trybu zmienia się tylko powoli, ale skrajny ogon skrócił się dość gwałtownie. Może minąć kilkaset zanim zacznie wyglądać normalnie. $n$

* Jak wspomniano, CLT nie stosuje się bezpośrednio (oczywiście, ponieważ ogólnie nie mamy do czynienia ze środkami). Możesz jednak wysunąć asymptotyczny argument, w którym rozwiniesz coś w w szeregu, sformułować odpowiedni argument odnoszący się do warunków wyższego rzędu i przywołać formę CLT, aby uzyskać znormalizowaną wersję zbliża się do normalności (w odpowiednich warunkach ...). $\hat{\theta}$ $\hat{\theta}$

Zauważ również, że efekt, który widzimy, gdy patrzymy na małe próbki (przynajmniej małe w porównaniu do nieskończoności) - ten regularny postęp w kierunku normalności w różnych sytuacjach, jak widzimy motywowany przez powyższe wykresy - sugerowałby, że gdyby rozważaliśmy cdf znormalizowanej statystyki, może istnieć wersja czegoś takiego jak nierówność Berry Esseen oparta na podobnym podejściu do sposobu używania argumentu CLT z MLE, który określałby, jak wolno rozkład próbkowania może zbliżyć się do normalności. Nie widziałem czegoś takiego, ale nie zdziwiłbym się, gdybym stwierdził, że zostało to zrobione.

— Glen_b - Przywróć Monikę
źródło