Czy zawsze istnieje maksymalizator dla jakiegokolwiek problemu MLE?


23

Zastanawiam się, czy zawsze istnieje maksymalizator dla jakiegokolwiek problemu z oszacowaniem maksymalnego (log-) prawdopodobieństwa? Innymi słowy, czy istnieje jakiś rozkład i niektóre jego parametry, dla których problem MLE nie ma maksymalizatora?

Moje pytanie pochodzi od twierdzenia inżyniera, że ​​funkcja kosztu (prawdopodobieństwo lub logarytmiczne prawdopodobieństwo, nie jestem pewien, który był zamierzony) w MLE jest zawsze wklęsła i dlatego zawsze ma maksymalizator.

Dziękuję i pozdrawiam!


8
(+1) Czy jesteś pewien, że w twoim pytaniu nie ma żadnych kwalifikacji? Na obecnym etapie oświadczenie inżyniera jest fałszywe na tak wiele różnych sposobów, że prawie nie wiadomo od czego zacząć. :)
kardynał

@cardinal: Zasadniczo zapisałem to, co słyszałem. Ale przyznaję, że coś mogę przegapić.
Tim

5
Kontrprzykład (wypukłość): Niech będzie iid \ mathcal N (0, \ sigma ^ 2) . Chociaż istnieje unikalny MLE, ani prawdopodobieństwo, ani logarytmiczne prawdopodobieństwo nie są wypukłe w \ sigma ^ 2 . X1,X2),,XnN.(0,σ2))σ2)
kardynał

3
@Tim Regresja logistyczna jest podstawowym przykładem, w którym MLE nie zawsze istnieje. Ponadto w przypadku niektórych funkcji łącza prawdopodobieństwo dziennika nie jest wklęsłe.

Odpowiedzi:


30

Być może inżynier miał na myśli kanoniczne rodziny wykładnicze: w ich naturalnej parametryzacji przestrzeń parametrów jest wypukła, a prawdopodobieństwo logarytmiczne jest wklęsłe (patrz Thm 1.6.3 w Mathematical Statistics Bickel & Doksum , tom 1 ). Ponadto, w pewnych łagodnych warunkach technicznych (w zasadzie, że model ma „pełną rangę” lub równoważnie, że parametr naturalny można zidentyfikować), funkcja logarytmu prawdopodobieństwa jest ściśle wklęsła, co oznacza, że ​​istnieje wyjątkowy maksymalizator. (Wniosek 1.6.2 w tym samym odnośniku.) [Również uwagi do wykładu cytowane przez @biostat mają ten sam punkt.]

Należy zauważyć, że naturalna parametryzacja kanonicznej rodziny wykładniczej zwykle różni się od standardowej parametryzacji. Tak więc, chociaż @cardinal wskazuje, że prawdopodobieństwo dziennika dla rodziny nie jest wypukłe w , będzie wklęsłe w parametrach naturalnych, które są i . N.(μ,σ2))σ2)η1=μ/σ2)η2)=-1/σ2)


2
(+1) Dobra odpowiedź. Jak wskazano w moich komentarzach do PO, mam nadzieję, że ta odpowiedź zostanie opublikowana (nawet kontrprzykład został starannie wybrany z myślą o tym). :)
kardynał

2
Czy możesz to pokazać w wielowymiarowym modelu Gaussa?
Royi

6

Funkcja wiarygodności często osiąga maksimum w celu oszacowania parametru będącego przedmiotem zainteresowania. Niemniej jednak czasami MLE nie istnieje, na przykład dla rozkładu mieszaniny Gaussa lub funkcji nieparametrycznych, które mają więcej niż jeden pik (bi lub multimodalny). Często spotykam się z problemem oszacowania genetyki populacji nieznanych parametrów, tj. Wskaźników rekombinacji, efektu selekcji naturalnej.

Jednym z powodów jest również to, że @cardinal wskazuje na nieograniczoną przestrzeń parametryczną.

Ponadto poleciłbym następujący artykuł , patrz sekcja 3 (funkcja) i ryc. 3. Istnieją jednak bardzo przydatne i przydatne informacje o dokumencie dotyczące MLE.


3
Myślę, że nie rozumiem twojego podanego przykładu. Jakie funkcje kwadratowe mają więcej niż jeden pik?
kardynał

@cardinal: Pozwól, że wyjaśnię. Chodzi o to, że parametr nieograniczony jest jednym z powodów, dla których funkcja wiarygodności nie osiąga maksimum, nawet w prostym przykładzie rozkładu normalnego. Jednak moim zdaniem z punktu widzenia optymalizacji istnieje popularny problem maksimów lokalnych i globalnych. Często napotykałem ten problem w genetyce populacyjnej podczas szacowania wskaźników rekombinacji. Ponadto sekcja ta artykułu 3 (na FUNCTION), a na fig 3. Artykuł URL: citeseerx.ist.psu.edu/viewdoc/...
Biostat

Czy więc mówisz, że „funkcje kwadratowe z więcej niż jednym pikiem” może być odniesieniem np. Do modelu mieszanki Gaussa? Jeśli tak, edycja prawdopodobnie rozwiałaby pewne zamieszanie.
kardynał

Teraz jest zaktualizowany.
Biostat

2
(+1) Do aktualizacji. Należy zauważyć, że w modelach mieszanin Gaussa ogólnie występują zarówno nieograniczone prawdopodobieństwo, jak i wiele lokalnych maksimów. Co gorsza, prawdopodobieństwo staje się nieograniczone w przypadku szczególnie patologicznych rozwiązań. Zasadniczo wiele maksimów może nie być tak poważnym problemem. W niektórych przypadkach te maksima zbiegają się ze sobą wystarczająco szybko, że wybranie któregokolwiek z nich może nadal dać rozsądny (równy, wydajny) estymator parametru będącego przedmiotem zainteresowania asymptotycznie.
kardynał

3

Przyznaję, że coś mi umknęło, ale -

Jeśli jest to problem z oszacowaniem, a celem jest oszacowanie nieznanego parametru, a wiadomo, że parametr pochodzi z jakiegoś zestawu zamkniętego i ograniczonego, a funkcja prawdopodobieństwa jest ciągła, wówczas musi istnieć wartość tego parametru, która maksymalizuje funkcja prawdopodobieństwa. Innymi słowy, musi istnieć maksimum. (Nie musi być unikalny, ale musi istnieć co najmniej jedno maksimum. Nie ma gwarancji, że wszystkie lokalne maksima będą maksymami globalnymi, ale nie jest to warunek konieczny do istnienia maksimum).

Nie wiem, czy funkcja prawdopodobieństwa zawsze musi być wypukła, ale nie jest to warunek konieczny, aby istniało maksimum.

Gdybym coś przeoczył, chętnie usłyszałbym to, czego mi brakuje.


4
Przy braku dodatkowych założeń podane oświadczenie dotyczące maksimów jest fałszywe. Na przykład, jeśli przestrzeń parametrów jest zamknięta i ograniczona, a funkcja prawdopodobieństwa jest ciągła w parametrach, wówczas musi istnieć maksimum. W przypadku braku któregokolwiek z tych dodatkowych warunków wynik nie musi się utrzymywać. Jeśli chodzi o wypukłość, zawodzi nawet w najprostszym i najczęstszym z przykładów. :)
kardynał

2
(+1) Ograniczenie przestrzeni parametrów nie utrzymuje się nawet w wielu prostych przypadkach. Jednak ze względów praktycznych wiemy, że nasze parametry są ograniczone. :)
kardynał

3

Być może komuś przyda się następujący prosty przykład.

Zastanów się raz rzuć monetą. Niech oznacza prawdopodobieństwo głów. Jeśli wiadomo, że moneta może wychodzić zarówno z główek, jak i reszek, to . Ponieważ zestaw jest otwarty, przestrzeń parametrów nie jest zwarta. Prawdopodobieństwo jest podane przez W żadnym przypadku nie ma maksymalnej wartości on .θθ(0,1)(0,1)θ

{θgłowy1-θogony.
θ(0,1)
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.