Czy kiedykolwiek używamy oszacowania maksymalnego prawdopodobieństwa?

14

Zastanawiam się, czy oszacowanie maksymalnego prawdopodobieństwa kiedykolwiek użyte w statystykach. Uczymy się jego koncepcji, ale zastanawiam się, kiedy jest faktycznie używana. Jeśli przyjmiemy rozkład danych, znajdziemy dwa parametry, jeden dla średniej i jeden dla wariancji, ale czy rzeczywiście używasz go w rzeczywistych sytuacjach?

Czy ktoś może mi powiedzieć prosty przypadek, w którym jest używany?

estimation maximum-likelihood

— użytkownik122358
źródło

33

Jest najbardziej rozpowszechniona metoda szacowania.

the

$\textit{the}$

— JohnK

3

Próbowałem zapytać, kiedy nie używamy MLE

— Haitao Du

4

regresja logistyczna. Regresja Poissona. OLS jest MLE, gdy błędy są uznawane za normalne. Regresja gamma. Naprawdę każdy klasyczny GLM. Szacowanie średniej z normalnej populacji. Szacowanie prawdopodobieństwa sukcesu na podstawie serii badań dwumianowych. Szacowanie wskaźnika zdarzeń poissona. Mógłbym kontynuować ...

— GoF_Logistic

4

To bardzo wąskie wyszukiwanie w naszej witrynie dostarcza setki przykładów faktycznych zastosowań.

— whuber

6

@ hxd1011 Ty nie używając MLE gdy nie używasz jego metody w celu uzyskania wariancji oszacowań lub do obliczania zaufania, przewidywania lub przedziałów tolerancji, na przykład, nawet gdy Estymator używasz może zdarzyć się zgodzić z estymatora MLE. Na przykład nie używasz MLE podczas uruchamiania testu t. Często nie używasz go, gdy stosujesz obiektywne estymatory. Filozoficznie, nie będziesz używać MLE, jeśli zależy Ci na funkcji utraty lub masz wcześniejszą dystrybucję.

— whuber

25

Zastanawiam się, czy oszacowanie maksymalnego prawdopodobieństwa kiedykolwiek użyte w statystykach.

Na pewno! Właściwie całkiem sporo - ale nie zawsze.

Uczymy się jego koncepcji, ale zastanawiam się, kiedy jest faktycznie używana.

Gdy ludzie mają parametryczny model dystrybucji, dość często wybierają oszacowanie maksymalnego prawdopodobieństwa. Gdy model jest poprawny, istnieje szereg przydatnych właściwości estymatorów maksymalnego prawdopodobieństwa.

Na przykład - zastosowanie uogólnionych modeli liniowych jest dość rozpowszechnione, w takim przypadku parametry opisujące średnią są szacowane na podstawie maksymalnego prawdopodobieństwa.

Może się zdarzyć, że niektóre parametry są szacowane na podstawie maksymalnego prawdopodobieństwa, a inne nie. Rozważmy na przykład rozproszony Poisson GLM - parametr dyspersji nie zostanie oszacowany na podstawie maksymalnego prawdopodobieństwa, ponieważ MLE nie jest w tym przypadku przydatny.

Jeśli założymy rozkład danych, znajdziemy dwa parametry

Czasami możesz mieć dwa, ale czasami masz jeden parametr, czasem trzy lub cztery lub więcej.

jeden dla średniej i jeden dla wariancji,

Czy myślisz o konkretnym modelu? Nie zawsze tak jest. Rozważ oszacowanie parametru rozkładu wykładniczego lub rozkładu Poissona lub rozkładu dwumianowego. W każdym z tych przypadków występuje jeden parametr, a wariancja jest funkcją parametru opisującego średnią.

Lub rozważ ogólny rozkład gamma , który ma trzy parametry. Lub czteroparametrowa dystrybucja beta , która ma (być może nic dziwnego) cztery parametry. Należy również zauważyć, że (w zależności od konkretnej parametryzacji) średnia lub wariancja lub oba mogą nie być reprezentowane przez pojedynczy parametr, ale przez funkcje kilku z nich.

Na przykład rozkład gamma, dla którego istnieją trzy parametryzacje, które widzą dość powszechne zastosowanie - z których dwa najczęstsze mają zarówno średnią, jak i wariancję, które są funkcjami dwóch parametrów.

Zazwyczaj w modelu regresyjnym lub GLM lub modelu przeżycia (pośród wielu innych typów modeli) model może zależeć od wielu predyktorów, w którym to przypadku rozkład związany z każdą obserwacją w modelu może mieć jeden z własnych parametrów (lub nawet kilka parametrów), które są powiązane z wieloma zmiennymi predykcyjnymi („zmiennymi niezależnymi”).

— Glen_b - Przywróć Monikę
źródło

5

„Gdy ludzie mają parametryczny model dystrybucyjny”. Nie zapomnij o nieparametrycznym oszacowaniu maksymalnego prawdopodobieństwa, aby uwzględnić prawdopodobieństwo empiryczne.

— Mark L. Stone,

3

@Mark Relatywnie rzadziej. Dodam słowo do mojej odpowiedzi.

— Glen_b

Czy możemy zastosować oszacowanie maksymalnego prawdopodobieństwa, chociaż zakładamy, że na przykład rozkład jest normalny? Myślę, że nie musimy, ale nadal możemy z niego korzystać, prawda?

— user122358,

@ user122358 Glen and Mark już ci odpowiedzieli. Możesz założyć dystrybucję lub nie. Przez większość czasu przyjmujesz rozkład, a zatem funkcję prawdopodobieństwa.

— HelloWorld,

3

„Gdy ludzie mają parametryczny model dystrybucyjny”. Nie zapomnij o półparametrycznym oszacowaniu maksymalnego prawdopodobieństwa, aby uwzględnić częściowe prawdopodobieństwo. ;)

— Scortchi - Przywróć Monikę

8

Chociaż estymatory największej wiarygodności mogą wyglądać podejrzanie, biorąc pod uwagę założenia dotyczące dystrybucji danych, często stosuje się estymatory quasi-maksymalnego prawdopodobieństwa. Chodzi o to, aby zacząć od założenia dystrybucji i rozwiązania dla MLE, a następnie usunąć jawne założenie dystrybucyjne i zamiast tego przyjrzeć się, jak działa estymator w bardziej ogólnych warunkach. Więc Quasi MLE staje się po prostu sprytnym sposobem na uzyskanie estymatora, a większość pracy czerpie z właściwości estymatora. Ponieważ założenia dystrybucyjne zostały odrzucone, quasi-MLE zwykle nie ma dobrych właściwości wydajnościowych.

Jako przykład zabawki, załóżmy, że masz próbką iid , a chcesz się prognozy dla wariancji . Można zacząć zakładając , pisać prawdopodobieństwo używając normalnego PDF i rozwiązać za argmax dostać . Możemy wtedy zadawać pytania, na jakich warunkach $x_1, x_2, ..., x_n$ $X$ $X \sim N (\mu, \sigma^2)$ $\hat\sigma^2 = n^{-1}\sum (x_i - \bar x)^2$ konsekwentna Estymator jest to obiektywne (nie jest), czy to pierwiastek n spójne, co jest jego dystrybucja asypmtotic, etc. $\hat\sigma^2$

— Igor
źródło

1

Możesz także sprawdzić ten wątek intuicyjnie za Quasi MLE.

— Richard Hardy,

5

Szacowanie maksymalnego prawdopodobieństwa jest często używane w uczeniu maszynowym do szkolenia:

sieci neuronowe, np. Czy możemy użyć MLE do oszacowania wag sieci neuronowej?
regresja liniowa, logistyczna i wieloklasowa regresja logistyczna, np. Dlaczego współczynników regresji liniowej i logistycznej nie można oszacować przy użyciu tej samej metody?
warunkowe pole losowe (CRF), np. https://www.coursera.org/learn/probabilistic-graphical-models-3-learning/lecture/oKJ1x/maximum-likelihood-for-conditional-random-fields
ukryty model Markowa (HMM), np. https://en.wikipedia.org/w/index.php?title=Hidden_Markov_model&oldid=768811108#Learning

Zauważ, że w niektórych przypadkach preferuje się dodanie pewnej regularyzacji, która czasami jest równoważna oszacowaniu Maximum a posteriori , np. Dlaczego kara Lasso jest równoważna podwójnemu wykładniczemu (Laplaceowi) przedtem? .

— Franck Dernoncourt
źródło

3

Czy ktoś może mi powiedzieć prosty przypadek, w którym jest używany?

Bardzo typowym przypadkiem jest regresja logistyczna. Regresja logistyczna jest techniką często stosowaną w uczeniu maszynowym do klasyfikowania punktów danych. Na przykład regresji logistycznej można użyć do sklasyfikowania, czy wiadomość e-mail jest spamem, czy też nie, lub do sklasyfikowania, czy dana osoba ma chorobę, czy nie.

W szczególności model regresji logistycznej mówi, że prawdopodobieństwo punktu danych $x_i$ należy do klasy 1: $h_\theta(x_i) = P[y_i = 1] = \frac{1}{1+e^{-\theta^T x_i}}$

The parameter vector $\theta$ is typically estimated using MLE.

Specifically, using optimization methods, we find the estimator $\hat\theta$ such that the expression $-\sum_{i=1}^n y_i\log(h_\hat\theta(x_i)) + (1-y_i)\log(1-h_{\hat\theta}(x_i))$ jest zminimalizowane. To wyrażenie jest ujemnym prawdopodobieństwem logarytmicznym, więc minimalizacja tego jest równoważna maksymalizacji prawdopodobieństwa.

— użytkownik35734
źródło

1

Używamy MLE przez cały czas, ale możemy tego nie poczuć. Podam dwa proste przykłady do pokazania.

Przykład 1

Jeśli obserwujemy wynik rzutu monetą, z $8$ wyjść z $10$ flips (zakładając, że iid. z Bernoulli), jak odgadnąć parametr $\theta$ (prob głowy) monety? Możemy powiedzieć $\theta=0.8$ , używając „liczenia”.

Dlaczego warto korzystać z liczenia? jest to faktycznie domyślnie za pomocą MLE! Gdzie jest problem?

\underset{θ}{Wyolbrzymiać} θ^{8} (1 - θ)^{2)}

$\underset \theta {\text{Maximize}}~~~\theta^{8}(1-\theta)^{2}$

Aby rozwiązać równanie, potrzebujemy rachunku różniczkowego, ale wniosek się liczy.

Przykład 2

Jak oszacowalibyśmy parametry rozkładu Gaussa na podstawie danych? Używamy średniej empirycznej jako średniej szacunkowej, a wariancji empirycznej jako wariancji szacunkowej, która również pochodzi od MLE !.

— Haitao Du
źródło

6

Przykład 1 to także rozwiązanie Bayesa i metoda momentów (MM) (i prawdopodobnie jest to również rozwiązanie przy użyciu innych procedur). Przykład 2 to rozwiązanie MM. O wiele bardziej przekonujące byłoby pokazanie procedur, które są wyłącznie MLE - w przeciwnym razie nigdy nie byłoby potrzeby MLE.

— whuber

Dlaczego przykład 1 staje się rozwiązaniem Bayesa, a przykład 2 staje się rozwiązaniem MM? Nawiasem mówiąc, czym jest MM?

— user122358,

@ user122358 MM to metoda chwil. Zobacz tutaj, na przykład: en.wikipedia.org/wiki/Method_of_moments_(statistics)

— jld

0

Niektóre maksymalne prawdopodobieństwo wykorzystania w komunikacji bezprzewodowej:

Dekodowanie danych cyfrowych z głośnych odbieranych sygnałów, z nadmiarowymi kodami lub bez nich.
Szacowanie przesunięć czasowych, fazowych i częstotliwościowych w odbiornikach.
Oszacowanie (parametrów) kanału propagacji.
Oszacowanie opóźnienia, kąta przybycia i przesunięcia Dopplera (np. Radaru).
Oszacowanie pozycji mobilnej (np. GPS).
Szacowanie przesunięć zegara do synchronizacji wszelkiego rodzaju ustawień rozproszonych.
Wiele procedur kalibracyjnych.

— GDumphart
źródło