Czy możesz podać proste intuicyjne wyjaśnienie metody IRLS, aby znaleźć MLE GLM?


13

Tło:

Staram się śledzić ocenę Princeton dotyczącą oszacowania MLE dla GLM .

I zrozumieć podstawy szacowania MLE: likelihood, score, obserwowane i oczekiwane Fisher informationi Fisher scoringtechnika. I wiem, jak uzasadnić prostą regresję liniową estymacją MLE .


Pytanie:

Nie rozumiem nawet pierwszego wiersza tej metody :(

Jaka intuicja kryje się za roboczymi zdefiniowanymi jako:zi

zi=η^i+(yiμ^i)dηidμi

Dlaczego są one używane zamiast do oszacowania ?yiβ

A jaki jest ich związek z tym, response/link functionco jest związkiem między aημ

Jeśli ktoś ma proste wyjaśnienie lub może skierować mnie do bardziej podstawowego tekstu na ten temat, byłbym wdzięczny.


1
Na marginesie, dla mnie dowiedziałem się o IRLS w kontekście solidnego oszacowania (M-), zanim usłyszałem o całym frameworku „GLM” (którego wciąż nie do końca rozumiem). W celu praktycznego spojrzenia na to podejście, jako prostego uogólnienia najmniejszych kwadratów, poleciłbym źródło, z którym po raz pierwszy się spotkałem: Dodatek B książki Computer Vision (free E-) Richarda Szeliskiego (pierwsze 4 strony, naprawdę, chociaż te linki do kilka dobrych przykładów).
GeoMatt22

Odpowiedzi:


15

Kilka lat temu napisałem o tym artykuł dla moich uczniów (w języku hiszpańskim), więc mogę spróbować przepisać te wyjaśnienia tutaj. Spojrzę na IRLS (iteracyjnie przeważone najmniejsze kwadraty) przez szereg przykładów o coraz większej złożoności. W pierwszym przykładzie potrzebujemy koncepcji rodziny o skali lokalizacji. Niech będzie w pewnym sensie funkcją gęstości wyśrodkowaną na zero. Możemy zbudować rodzinę gęstości, definiując gdzie to parametr skali, a f ( x ) = f ( x ; μ , σ ) = 1f0σ>0μf0N(μ,σ)

f(x)=f(x;μ,σ)=1σf0(xμσ)
σ>0μjest parametrem lokalizacji. W modelu błędu pomiaru, gdzie zwykle termin błędu jest modelowany jako rozkład normalny, możemy zamiast tego rozkładu normalnego użyć rodziny o skali lokalizacji skonstruowanej powyżej. Gdy jest standardowym rozkładem normalnym, powyższa konstrukcja daje rodzinę .f0N(μ,σ)

Teraz użyjemy IRLS na kilku prostych przykładach. Najpierw znajdziemy estymatory ML (maksymalne prawdopodobieństwo) w modelu o gęstości Cauchy rozkład rodziny lokalizacji (więc jest to rodzina lokalizacji). Ale najpierw jakiś zapis. Estymator najmniejszych kwadratów ważony jest wyrażony przez gdzie to niektóre wagi. Zobaczymy, że estymator ML można wyrazić w tej samej formie, za pomocąf ( y ) = 1

Y1,Y2,,Yni.i.d
f(y)=1π11+(yμ)2,yR,
μμ
μ=i=1nwiyii=1nwi.
wiμwijakaś funkcja residuals Funkcja prawdopodobieństwa jest podana przez a funkcja loglikelihood jest dana przez Jego pochodną względem jest gdzie . pisać
ϵi=yiμ^.
L(y;μ)=(1π)ni=1n11+(yiμ)2
l(y)=nlog(π)i=1nlog(1+(yiμ)2).
μ
l(y)μ=0μlog(1+(yiμ)2)=2(yiμ)1+(yiμ)2(1)=2ϵi1+ϵi2
ϵi=yiμf0(ϵ)=1π11+ϵ2 i , otrzymujemy Znajdujemy którym użyliśmy definicji f0(ϵ)=1π12ϵ(1+ϵ2)2
f0(ϵ)f0(ϵ)=12ϵ(1+ϵ2)211+ϵ2=2ϵ1+ϵ2.
l(y)μ=f0(ϵi)f0(ϵi)=f0(ϵi)f0(ϵi)(1ϵi)(ϵi)=wiϵi
wi=f0(ϵi)f0(ϵi)(1ϵi)=2ϵi1+ϵi2(1ϵi)=21+ϵi2.
Pamiętając, że otrzymujemy równanie które jest równaniem szacunkowym IRLS. Zauważ, żeϵi=yiμ
wiyi=μwi,
  1. Wagi są zawsze dodatnie.wi
  2. Jeśli reszta jest duża, przypisujemy mniejszą wagę do odpowiedniej obserwacji.

Aby obliczyć estymator ML w praktyce, potrzebujemy wartości początkowej , moglibyśmy na przykład użyć mediany. Za pomocą tej wartości obliczamy resztki i wagi Nowa wartość jest podana przez Kontynuując w ten sposób, definiujemy i Szacowana wartość na przejściu algorytmu staje się μ^(0)

ϵi(0)=yiμ^(0)
wi(0)=21+ϵi(0).
μ^
μ^(1)=wi(0)yiwi(0).
ϵi(j)=yiμ^(j)
wi(j)=21+ϵi(j).
j+1
μ^(j+1)=wi(j)yiwi(j).
Kontynuując, aż sekwencja zbiegnie się.
μ^(0),μ^(1),,μ^(j),

Teraz badamy ten proces z bardziej ogólną rodziną lokalizacji i skali, , z mniejszą ilością szczegółów. Niech będą niezależne od powyższej gęstości. Zdefiniuj także . Funkcja loglikelihood to Pisząc , zwróć uwagę, że i Obliczanie pochodnej logarytmu f(y)=1σf0(yμσ)Y1,Y2,,Ynϵi=yiμσ

l(y)=n2log(σ2)+log(f0(yiμσ)).
ν=σ2
ϵiμ=1σ
ϵiν=(yiμ)(1ν)=(yiμ)12σ3.
l(y)μ=f0(ϵi)f0(ϵi)ϵiμ=f0(ϵi)f0(ϵi)(1σ)=1σfo(ϵi)f0(ϵi)(1ϵi)(ϵi)=1σwiϵi
i tego do zera daje to samo równanie szacunkowe jak w pierwszym przykładzie. Następnie wyszukaj estymator dla : σ2
l(y)ν=n21ν+f0(ϵi)f0(ϵi)ϵiν=n21ν+f0(ϵi)f0(ϵi)((yiμ)2σ3)=n21ν121σ2f0(ϵi)f0(ϵi)ϵi=n21ν121νf0(ϵi)f0(ϵi)(1ϵi)(ϵi)ϵi=n21ν+121νwiϵi2=!0.
prowadząc do estymatora W tym przypadku można również zastosować powyższy algorytm iteracyjny.
σ2^=1nwi(yiμ^)2.

Poniżej podajemy przykład numeryczny z wykorzystaniem R, dla modelu podwójnego wykładniczego (o znanej skali) i danych y <- c(-5,-1,0,1,5). Dla tych danych prawdziwa wartość estymatora ML wynosi 0. Wartość początkowa będzie wynosić mu <- 0.5. Jeden przebieg algorytmu to

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

za pomocą tej funkcji możesz eksperymentować z wykonywaniem iteracji „ręcznie”. Następnie można wykonać algorytm iteracyjny

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

Ćwiczenie: Jeśli model jest rozkładem z parametrem skali pokaż iteracje według wagi Ćwiczenie: jeśli gęstość jest logistyczna, pokaż wagi podane przez tkσw(ϵ)=1-eϵ

wi=k+1k+ϵi2.
w(ϵ)=1eϵ1+eϵ1ϵ.

Na razie zostawię to tutaj, będę kontynuować ten post.


wow, świetne delikatne wprowadzenie! ale zawsze odnosisz się do jednego parametru dla wszystkich instancji, a źródła, które cytowałem, mówią o innym każdej instancji. czy to tylko trywialna modyfikacja? u Iuui
ihadanny

1
Dodam do tego więcej, teraz już poza czasem! Pomysły pozostają takie same, ale szczegóły są bardziej zaangażowane.
kjetil b halvorsen

2
dojdzie do tego!
kjetil b halvorsen

1
I dzięki za ćwiczenie pokazujące wagi dla gęstości logistycznej. Zrobiłem to i wiele się nauczyłem przez cały proces. Nie znam dystrybucji , nie mogłem nic o tym znaleźć ...tk
ihadanny 30.09.16

2
czy masz coś przeciwko napisaniu posta na blogu, gdzie będzie kontynuacja tego wyjaśnienia? bardzo przydatne dla mnie i na pewno będą dla innych ...
ihadanny
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.