W nieco bardziej ogólnym kontekście z Y na n-wymiarowy wektor y- obserwacje (odpowiedzi lub zmienne zależne), X na n × p macierz x- obserwacje (zmienne towarzyszące lub zmienne zależne) i θ = (β1,β2), σ) parametry takie, że Y∼ N.( Xβ1, Σ (β2), σ) ) wtedy prawdopodobieństwo minus-log jest
l (β1,β2), σ) =12)( Y- Xβ1)T.Σ (β2), σ)- 1( Y- Xβ1) +12)log| Σ(β2), σ) |
W pytaniu PO
Σ (β2), σ) jest przekątna z
Σ (β2), σ)ja ja=σ2)sol(zT.jaβ2))2)
więc determinant staje się
σ2 n∏ni = 1sol(zT.jaβ2))2) i wynikowe prawdopodobieństwo logarytmu ujemnego staje się
12)σ2)∑i = 1n(yja-xT.jaβ1)2)sol(zT.jaβ2))2)+ n logσ+∑i = 1nlogsol(zT.jaβ2))
Istnieje kilka sposobów podejścia do minimalizacji tej funkcji (przy założeniu, że trzy parametry są niezależne od zmian).
- Możesz spróbować zminimalizować tę funkcję za pomocą standardowego algorytmu optymalizacji, pamiętając o tym ograniczeniu σ> 0.
- Możesz obliczyć profil minus-log-prawdopodobieństwo (β1,β2)) poprzez minimalizację σ dla ustalonych (β1,β2)), a następnie podłącz wynikową funkcję do standardowego nieograniczonego algorytmu optymalizacji.
- Możesz na przemian optymalizować każdy z trzech parametrów osobno. Optymalizacja ponadσ można to zrobić analitycznie, optymalizując ponad β1 jest ważonym problemem regresji metodą najmniejszych kwadratów i optymalizacją β2) odpowiada dopasowaniu do uogólnionego modelu liniowego gamma sol2) odwrotny link.
Ostatnia propozycja przemawia do mnie, ponieważ opiera się na rozwiązaniach, które już dobrze znam. Ponadto pierwsza iteracja jest czymś, co chciałbym rozważyć. To znaczy, najpierw obliczyć wstępne oszacowanieβ1 przez zwykłe najmniejsze kwadraty ignorując potencjalną heteroskedastyczność, a następnie dopasuj gamma glm do kwadratowych reszt, aby uzyskać wstępne oszacowanie β2) -aby sprawdzić, czy bardziej skomplikowany model wydaje się opłacalny. Iteracje uwzględniające heteroskedastyczność w roztworze najmniejszych kwadratów, ponieważ wagi mogą następnie poprawić się po oszacowaniu.
Jeśli chodzi o drugą część pytania, prawdopodobnie rozważyłbym obliczenie przedziału ufności dla kombinacji liniowej wT.1β1+wT.2)β2) albo przez użycie standardowej asymptotyki MLE (sprawdzanie za pomocą symulacji, że asymptotyka działa) lub przez ładowanie.
Edycja: Przez standardowe asymptotyki MLE mam na myśli stosowanie wielowymiarowej normalnej aproksymacji do rozkładu MLE z macierzą kowariancji odwrotnej informacji Fishera. Informacja Fishera jest z definicji macierzą kowariancji gradientul. To zależy ogólnie od parametrów. Jeśli możesz znaleźć wyrażenie analityczne dla tej ilości, możesz spróbować podłączyć MLE. Alternatywnie, możesz oszacować informacje Fishera na podstawie zaobserwowanej informacji Fishera, którą jest Hesjanlw MLE. Twój parametr będący przedmiotem zainteresowania to liniowa kombinacja parametrów w dwóchβ-wektory, stąd w przybliżeniu wielowymiarowej normalnej MLE można znaleźć normalne przybliżenie rozkładu estymatorów, jak opisano tutaj . Daje to przybliżony błąd standardowy i można obliczyć przedziały ufności. Jest dobrze opisany w wielu (matematycznych) statystykach, ale dość przystępną prezentacją, którą mogę polecić, jest In All Likelihood Yudi Pawitan. W każdym razie formalne wyprowadzenie teorii asymptotycznej jest dość skomplikowane i opiera się na szeregu warunków prawidłowości i daje tylko prawidłowy asymptotycznydystrybucje. Dlatego w razie wątpliwości zawsze przeprowadzałbym niektóre symulacje z nowym modelem, aby sprawdzić, czy mogę zaufać wynikom w zakresie realistycznych parametrów i wielkości próbek. Proste, nieparametryczne ładowanie początkowe, w którym próbkujesz trzykrotnie(yja,xja,zja) z obserwowanego zestawu danych z wymianą może być użyteczną alternatywą, jeśli procedura dopasowania nie jest zbyt czasochłonna.