Dlaczego MLE ma sens, skoro prawdopodobieństwo pojedynczej próbki wynosi 0?

To trochę dziwna myśl, którą miałem podczas przeglądania starych statystyk i z jakiegoś powodu nie wydaje mi się, żebym wymyślił odpowiedź.

Ciągły plik PDF informuje nas o gęstości obserwacji wartości w danym zakresie. Mianowicie, jeśli $X \sim N(\mu,\sigma^2)$ , na przykład, to prawdopodobieństwo, że realizacja przypada między i jest po prostu gdzie jest gęstością rozkładu normalnego. $a$ $b$ $\int_a^{b}\phi(x)dx$ $\phi$

Kiedy myślimy o dokonaniu oszacowania MLE parametru, powiedzmy $\mu$ , piszemy gęstość połączenia, powiedzmy $N$ , zmiennych losowych $X_1 .. X_N$ i różnicuj log-prawdopodobieństwo wrt na $\mu$ , ustaw równe 0 i rozwiąż dla $\mu$ . Często podawaną interpretacją jest „biorąc pod uwagę dane, których parametr sprawia, że ta funkcja gęstości jest najbardziej prawdopodobna”.

Część, która mnie denerwuje, jest następująca: mamy gęstość $N$ rv, a prawdopodobieństwo, że uzyskamy konkretną realizację, powiedzmy, nasza próbka, wynosi dokładnie 0. Dlaczego nawet warto zmaksymalizować łączną gęstość biorąc pod uwagę nasze dane ( ponieważ ponownie prawdopodobieństwo zaobserwowania naszej rzeczywistej próbki wynosi dokładnie 0)?

Jedyną racjonalizacją, jaką mogłem wymyślić, jest to, że chcemy, aby PDF był możliwie najwyższy wokół naszej zaobserwowanej próbki, tak aby całka w regionie (a zatem prawdopodobieństwo zaobserwowania rzeczy w tym regionie) była najwyższa.

normal-distribution maximum-likelihood pdf

— Alex
źródło

Z tego samego powodu używamy gęstości prawdopodobieństwa stats.stackexchange.com/q/4220/35989

— Tim

Rozumiem (myślę), dlaczego warto stosować gęstość. Nie rozumiem, dlaczego warto zmaksymalizować gęstość pod warunkiem obserwacji próbki, która ma zerowe prawdopodobieństwo wystąpienia.

— Alex

Ponieważ gęstości prawdopodobieństwa mówią nam, które wartości są stosunkowo bardziej prawdopodobne niż inne.

— Tim

Jeśli masz czas na pełne udzielenie odpowiedzi, myślę, że byłoby to bardziej pomocne dla mnie i dla następnej osoby.

— Alex

Ponieważ na szczęście prawdopodobieństwo nie jest prawdopodobieństwem!

— AdamO,

$\mathbb{P}_\theta(X=x)$ $x$ $\delta$ $\delta$

$\qquad\qquad\qquad$

$\delta$

Chociaż podszedł do nazwy „najbardziej prawdopodobnej wartości” i zastosował zasadę odwrotnego prawdopodobieństwa (wnioskowanie bayesowskie) z płaskim uprzednim, Carl Friedrich Gauß już w 1809 r. Wyprowadził estymator maksymalnego prawdopodobieństwa dla parametru wariancji rozkładu normalnego. Hald (1999) wspomina kilka innych przypadków szacunków maksymalnego prawdopodobieństwa przed opracowaniem Fishera z 1912 r., Które ustalają ogólną zasadę.

$(x_1,\ldots,x_n)$

\frac{1}{n} \sum_{i = 1}^{n} \log f_{θ} (x_{i})

$\frac{1}{n} \sum_{i=1}^n \log f_\theta(x_i)$

E [\log f_{θ} (X)] = \int \log f_{θ} (x) f_{0} (x) d x

$\mathbb{E}[\log f_\theta(X)]=\int \log f_\theta(x)\,f_0(x)\,\text{d}x$

f_{0}

$f_0$

θ

$\theta$

θ

$\theta$

\int \log \frac{f_{0} (x)}{f_{θ} (x)} f_{0} (x) d x = \underset{constant in θ}{\underset{⏟}{\int \log f_{0} (x) f_{0} (x) d x}} - \int \log f_{θ} (x) f_{0} (x) d x

$\int \log \dfrac{f_0(x)}{f_\theta(x)}\, f_0(x)\,\text{d}x=\underbrace{\int \log f_0(x)\,f_0(x)\,\text{d}x}_{\text{constant}\\\text{in }\theta}-\int \log f_\theta(x)\,f_0(x)\,\text{d}x$

f_{θ}

$f_\theta$

— Xi'an
źródło

Dziękuję za odpowiedź. Czy mógłbyś rozwinąć nieco argument KL? Nie widzę od razu, jak to jest.

— Alex