Ile rachunku jest konieczne, aby zrozumieć oszacowanie maksymalnego prawdopodobieństwa?

11

Próbuję zaplanować plan nauki do nauki MLE. W tym celu staram się ustalić, jaki jest minimalny poziom rachunku różniczkowego niezbędny do zrozumienia MLE.

Czy wystarczy zrozumieć podstawy rachunku różniczkowego i całkowego (tzn. Znaleźć minimum i maksimum funkcji), aby zrozumieć MLE?

estimation mathematical-statistics maximum-likelihood

— histelheim
źródło

2

Jak zawsze to zależy . Jeśli tylko próbujesz zrozumieć podstawy, znalezienie ekstremy funkcji daje ci uczciwy sposób (choć w wielu praktycznych przypadkach MLE, L jest M numerycznie, w którym to przypadku potrzebujesz również innych umiejętności jako jakiś rachunek różniczkowy).

— Glen_b

Dzięki. Czy mógłbyś bardziej szczegółowo wyjaśnić wspomniany przypadek? To brzmi interesująco.

— histelheim,

ok, ale teraz muszę udzielić odpowiedzi. Wytrzymać.

— Glen_b

20

Aby rozwinąć mój komentarz - to zależy. Jeśli tylko próbujesz zrozumieć podstawy, znalezienie ekstrema funkcji daje ci uczciwy sposób (chociaż w wielu praktycznych przypadkach MLE prawdopodobieństwo jest zmaksymalizowane numerycznie, w takim przypadku potrzebujesz innych umiejętności, a także niektórych rachunek różniczkowy).

Odłożę na bok ładne, proste przypadki, w których otrzymujesz wyraźne rozwiązania algebraiczne. Mimo to rachunek różniczkowy jest często bardzo przydatny.

Przez cały czas będę zakładać niezależność. Weźmy najprostszy możliwy przypadek optymalizacji 1-parametrowej. Najpierw przyjrzymy się przypadkowi, w którym możemy wziąć pochodne i wyodrębnić funkcję parametru i statystyki.

Rozważ gęstość $\rm{Gamma}(\alpha,1)$

f_{X} (x; α) = \frac{1}{Γ (α)} x^{α - 1} \exp (- x); x > 0; α > 0

$f_X(x;\alpha) = \frac{1}{\Gamma(\alpha)} x^{\alpha-1} \exp(-x); \,\,\, x>0;\,\,\alpha>0$

Zatem dla próbki o rozmiarze prawdopodobieństwo jest następujące $n$

L (α; x) = \prod_{i = 1}^{n} f_{X} (x_{i}; α)

$\mathcal{L}(\alpha; \mathbf{x}) = \prod_{i=1}^n f_X(x_i;\alpha)$

więc prawdopodobieństwo dziennika to gdzie . Biorąc pochodne,

l (α; x) = \sum_{i = 1}^{n} \ln f_{X} (x_{i}; α) = \sum_{i = 1}^{n} \ln (\frac{1}{Γ (α)} x_{i}^{α - 1} \exp (- x_{i}))

$\mathcal{l}(\alpha; \mathbf{x}) = \sum_{i=1}^n \ln{f_X(x_i;\alpha)} \\ = \sum_{i=1}^n \ln{\left(\frac{1}{\Gamma(\alpha)} x_i^{\alpha-1} \exp(-x_i)\right)}\\$

= \sum_{i = 1}^{n} - \ln Γ (α) + (α - 1) \ln x_{i} - x_{i}

$= \sum_{i=1}^n -\ln{\Gamma(\alpha)}+(\alpha-1)\ln{x_i} -x_i\\$

= - n \ln Γ (α) + (α - 1) S_{x} - n \bar{x}

$= -n\ln{\Gamma(\alpha)}+(\alpha-1)S_x -n\bar{x}$

S_{x} = \sum_{i = 1}^{n} \ln x_{i}

$S_x=\sum_{i=1}^n\ln{x_i}$

\frac{d}{d α} l (α; x) = \frac{d}{d α} (- n \ln Γ (α) + (α - 1) S_{x} - n \bar{x})

$\frac{d}{d\alpha}\mathcal{l}(\alpha; \mathbf{x}) = \frac{d}{d\alpha} \left(-n\ln{\Gamma(\alpha)}+(\alpha-1)S_x -n\bar{x}\right)\\$

= - n \frac{Γ^{'} (α)}{Γ (α)} + S_{x}

$= -n\frac{\Gamma'(\alpha)}{{\Gamma(\alpha)}}+S_x\\$

= - n ψ (α) + S_{x}

$= -n\psi(\alpha)+S_x$

Więc jeśli ustawimy to na zero i spróbujemy rozwiązać dla , możemy uzyskać: $\hat{\alpha}$

ψ (\hat{α}) = \ln G (x)

$\psi(\hat{\alpha})=\ln{G(\mathbf{x})}\\$

gdzie to funkcja digamma, a to średnia geometryczna . Nie możemy zapominać, że generalnie nie można po prostu ustawić pochodnej na zero i być pewnym, że zlokalizujesz argmax ; nadal musisz w jakiś sposób pokazać, że rozwiązanie jest maksymalne (w tym przypadku jest). Mówiąc bardziej ogólnie, możesz uzyskać minima lub poziome punkty przegięcia, a nawet jeśli masz lokalne maksimum, możesz nie mieć globalnego maksimum (którego dotykam pod koniec). $\psi(\cdot)$ $G(\cdot)$

Naszym zadaniem jest teraz znalezienie wartości dla której $\hat{\alpha}$

ψ (\hat{α}) = g

$\psi(\hat{\alpha})=g$

gdzie . $g=\ln{G(\mathbf{x})}$

To nie ma rozwiązania w zakresie funkcji elementarnych, musi być obliczone numerycznie; przynajmniej byliśmy w stanie uzyskać funkcję parametru z jednej strony i funkcję danych z drugiej. Istnieją różne algorytmy szukania zera, które można zastosować, jeśli nie masz wyraźnego sposobu rozwiązania równania (nawet jeśli nie masz pochodnych, na przykład istnieje sekcja binarna).

Często nie jest to takie miłe. Rozważ gęstość logistyczną ze skalą jednostkową: Ani argumentu prawdopodobieństwa, ani funkcji logarytmu wiarygodności nie można łatwo uzyskać algebraicznie - musisz użyć numerycznych metod optymalizacji. W takim przypadku funkcja jest dość dobrze zachowana, a metoda Newtona-Raphsona powinna zwykle wystarczyć do zlokalizowania oszacowania ML . Jeśli pochodna była niedostępna lub Newton-Raphson się nie zbiegał, mogą być potrzebne inne numeryczne metody optymalizacji, takie jak złoty odcinek (nie jest to przegląd najlepszych dostępnych metod, wystarczy wspomnieć o niektórych metodach, które są bardziej prawdopodobnie spotka się na poziomie podstawowym).

f (x; μ) = \frac{1}{4} {sech}^{2} (\frac{x - μ}{2}) .

$f(x; \mu) =\frac{1}{4} \operatorname{sech}^2\!\left(\frac{x-\mu}{2}\right).$

μ

$\mu$

Mówiąc bardziej ogólnie, możesz nawet nie być w stanie zrobić tyle. Rozważmy Cauchy'ego z medianą i skalą jednostkową: $\theta$

f_{X} (x; θ) = \frac{1}{π (1 + (x - θ)^{2})} .

$f_X(x;\theta) = \frac{1}{\pi (1 + (x-\theta)^2)}\,.$

Zasadniczo prawdopodobieństwo tutaj nie ma unikalnego lokalnego maksimum, ale kilka lokalnych maksimów. Jeśli okaże się to lokalne maksimum, nie może być inny, większy gdzie indziej. (Czasami ludzie koncentrują się na określeniu lokalnego maksimum najbliższego medianie lub czegoś takiego.)

Początkującym łatwo jest założyć, że jeśli znajdą wklęsły punkt zwrotny, że mają argmax funkcji, ale oprócz wielu trybów (już omówionych) mogą istnieć maksima, które w ogóle nie są związane z punktami zwrotnymi. Przyjmowanie instrumentów pochodnych i ustawianie ich na zero nie jest wystarczające; rozważ na przykład oszacowanie parametru dla munduru na . $(0,\theta)$

W innych przypadkach przestrzeń parametrów może być dyskretna.

Czasami znalezienie maksimum może być dość skomplikowane.

A to tylko próbka problemów z jednym parametrem. Gdy masz wiele parametrów, sprawy znów się angażują.

— Glen_b - Przywróć Monikę
źródło

4

Tak. Oczywiście nie mówimy o funkcjach jednowymiarowych, ale o funkcjach które należy zmaksymalizować (tzn. Prawdopodobieństwo), więc jest to nieco bardziej zaawansowane niż jedno- skrzynka wymiarowa. $\mathbb{R}^p \to \mathbb{R}$

Pewne ułatwienia z logarytmami na pewno będą pomocne, ponieważ maksymalizacja logarytmu prawdopodobieństwa jest zwykle znacznie łatwiejsza niż maksymalizacja samego prawdopodobieństwa.

Można zrozumieć znacznie więcej niż prosty MLE (matryce informacyjne itp.), Jeśli można poradzić sobie z drugą pochodną funkcji , tj. Macierzą Hesji. $\mathbb{R}^p \to \mathbb{R}$

— Stephan Kolassa
źródło