Oszacowanie parametrów za pomocą uogólnionych modeli liniowych

9

Domyślnie, gdy używamy glmfunkcji w R, używa iteracyjnie przeważonej metody najmniejszych kwadratów (IWLS) w celu znalezienia parametrów maksymalnego prawdopodobieństwa. Teraz mam dwa pytania.

Czy szacunki IWLS gwarantują globalne maksimum funkcji wiarygodności? Na podstawie ostatniego slajdu w tej prezentacji, myślę, że nie! Chciałem się tylko upewnić.
Czy możemy powiedzieć, że przyczyną powyższego pytania 1 jest fakt, że prawie wszystkie numeryczne metody optymalizacji mogą utknąć na maksimum lokalnym, a nie globalnym?

— Stat
źródło

6

Gdy próbujesz oszacować parametry, zawsze chcesz mieć rozwiązanie w formie zamkniętej. Jednak nie zawsze istnieje (przypuszczam, że w niektórych przypadkach może istnieć jeden, ale obecnie nie jest znany). Gdy rozwiązanie w postaci zamkniętej nie istnieje, należy zastosować strategię heurystyczną, aby przeszukać przestrzeń parametrów w celu znalezienia najlepszych możliwych oszacowań parametrów. Istnieje wiele strategii, takich wyszukiwarek (np R, ? Optim wykazy 6 Metody ogólnego przeznaczenia). IRWLS to uproszczona wersja algorytmu Newtona-Raphsona .

Niestety odpowiedź na twoje [ 1 ] jest taka, że żadna heurystyczna strategia wyszukiwania nie znajdzie globalnego minimum (maksimum). Istnieją trzy powody, dla których tak jest:

Jak zauważono na slajdzie 9 połączonej prezentacji, nie może istnieć żadne unikalne rozwiązanie. Przykładem tego może być doskonała wielokoliniowość lub gdy jest więcej parametrów do oszacowania niż danych .
Jak zauważono na slajdzie 10 (myślę, że prezentacja jest całkiem dobra), rozwiązanie może być nieskończone. Może się to zdarzyć w regresji logistycznej, na przykład, gdy masz idealną separację .
Może się również zdarzyć, że istnieje skończone globalne minimum (maksimum), ale algorytm go nie znajduje. Algorytmy te (zwłaszcza IRWLS i NR) mają tendencję do rozpoczynania od określonej lokalizacji i „rozglądania się”, aby zobaczyć, czy poruszanie się w jakimś kierunku stanowi „schodzenie w dół” (tj. Poprawianie dopasowania). Jeśli tak, to ponownie dopasuje się w pewnej odległości w tym kierunku i będzie powtarzać, aż zgadnięta / przewidywana poprawa będzie mniejsza niż pewien próg. Zatem istnieją dwa sposoby, aby nie osiągnąć globalnego minimum:
1. Szybkość opadania z bieżącej lokalizacji w kierunku globalnego minimum (maksimum) jest zbyt płytka, aby przekroczyć próg, a algorytm zatrzymuje się przed rozwiązaniem.
2. Istnieje lokalne minimum (maksimum) między bieżącą lokalizacją a globalnym minimum (maksimum), więc algorytmowi wydaje się, że dalszy ruch doprowadziłby do gorszego dopasowania.

Jeśli chodzi o twoje [ 2 ], pamiętaj, że różne strategie wyszukiwania mają różne tendencje do wychwytywania lokalnych minimów. Nawet tę samą strategię można czasem dostosować lub rozpocząć od innego punktu wyjścia, aby rozwiązać dwa ostatnie problemy.

— gung - Przywróć Monikę
źródło

Dzięki Gung. Jeszcze jedno pytanie, jak wybrać dobry punkt wyjścia przy optymalizacji?

— Stat

Nie wiem, czy istnieje najlepszy sposób. Czasami musisz wypróbować kilka różnych punktów początkowych, jeśli się nie zbiegają lub nie masz pewności, czy osiągasz globalne minimum. Myślę, że powszechnym sposobem, w jaki programy wybierają punkt początkowy, jest użycie oszacowań OLS, nawet jeśli nie są one odpowiednie i wiesz, że będziesz musiał się stąd przenieść.

— gung - Przywróć Monikę

6

Masz rację, że ogólnie IWLS, podobnie jak inne metody optymalizacji numerycznej, może zagwarantować zbieżność do lokalnego maksimum, nawet jeśli się zbiegnie. Oto ładny przykład, w którym wartość początkowa znajdowała się poza domeną konwergencji dla algorytmu używanego przez glm () w R. Jednak warto zauważyć, że dla GLM z łączem kanonicznym prawdopodobieństwo jest wklęsłe, patrz tutaj . Zatem jeśli algorytm się zbiegnie, to zbiegnie się w tryb globalny!

Ostatni problem wskazany na slajdzie to problem polegający na tym, że MLE dla parametru jest w nieskończoności. Może się to zdarzyć w regresji logistycznej, w której istnieje całkowite rozdzielenie. W takim przypadku pojawi się komunikat ostrzegawczy, że dopasowane prawdopodobieństwa wynoszą 0 lub 1. Ważne jest, aby pamiętać, że gdy to nastąpi, algorytm nie zszedł do trybu, więc nie ma to związku z tym, że algorytm jest utknął w lokalnym maksimum.

— jsk
źródło