Jaka jest różnica między „funkcją łącza” a „kanoniczną funkcją łącza” dla GLM


65

Jaka jest różnica między terminami „funkcja łącza” i „kanoniczna funkcja łącza”? Czy są też (teoretyczne) zalety używania jednego nad drugim?

Na przykład binarna zmienna odpowiedzi może być modelowana przy użyciu wielu funkcji łącza, takich jak logit , probit itp. Jednak logit tutaj jest uważany za „kanoniczną” funkcję łącza.


10
Obszernie omawiam tutaj funkcje linków: Różnica między modelami logit i probit , skupiając się na regresji dla binarnej zmiennej odpowiedzi. Chociaż tylko niewielka część tej dyskusji skupia się na znaczeniu funkcji „link” jako „kanonicznej”, to jednak może być pomocne w czytaniu. Zauważ, że aby zrozumieć różnicę b / ti zalety kanonicznej vs niekanonicznej funkcji łącza, należy zagłębić się głęboko w matematykę leżącą u podstaw GLiM.
gung - Przywróć Monikę

Odpowiedzi:


68

Powyższe odpowiedzi są bardziej intuicyjne, więc staram się bardziej rygorystycznie.

Co to jest GLM?

Niech oznacza zbiór odpowiedź Y i p -wymiarowego wektora współzmienna x = ( x 1 , ... , x p ) o wartość oczekiwana E ( Y ) = ľ . Dla i = 1 , ... , n niezależnych obserwacji rozkład każdego y I jest wykładniczy rodziny o gęstości F ( y I ;Y=(y,x)ypx=(x1,,xp)E(y)=μi=1,,nyi Tutaj interesującym parametrem (parametr naturalny lub kanoniczny) jest θ i , ϕ jest a parametr skali (znany lub postrzegany jako uciążliwy) oraz γ i τ są znanymi funkcjami. Gdy n -wymiarowych wektory stałych wartościach wejściowych na str

f(yi;θi,ϕ)=exp{[yiθiγ(θi)]/ϕ+τ(yi,ϕ)}
θiϕγτnpzmienne objaśniające oznaczone są przez . Zakładamy, że wektory wejściowe wpływają (1) tylko przez funkcję liniową, predyktor liniowy, η i = β 0 + β 1 x i 1 + + β p x i p, od których zależy θ i . Jak można wykazać, że θ = ( γ ) - 1 ( μ )x1,,xp
ηi=β0+β1xi1++βpxip
θiθ=(γ)1(μ), tę zależność ustala się, łącząc predyktor liniowy i θ za pomocą średniej. Mówiąc dokładniej, średnia μ jest postrzegana jako odwracalna i gładka funkcja predyktora liniowego, tj. G ( μ ) = η lub μ = g - 1 ( η ) Teraz, aby odpowiedzieć na twoje pytanie:ηθμ
g(μ)=η or μ=g1(η)

g()μηθηθg=(γ)1

Xyixijyij=1,,pμ

Dlatego zazwyczaj są używane. Zauważ jednak, że nie ma a priori powodu, dla którego efekty w modelu powinny być addytywne w skali podanej przez to lub inne łącze.


5
+1, to naprawdę fajna odpowiedź, @Momo. Niektóre równania były dla mnie trudniejsze do odczytania, gdy zostały zakopane w akapitach, więc „zablokowałem” je, stosując podwójne znaki dolara (tj. $ $). Mam nadzieję, że to w porządku (jeśli nie, możesz cofnąć, bez moich przeprosin).
gung - Przywróć Monikę

1
@Momo oryginalne pytanie tutaj zawiera jednak to, o co pytał Wei, dlatego warto podkreślić, że na to pytanie nie ma jeszcze wyraźnej odpowiedzi.
Glen_b

1
θη=θg(μ)=θθ=(γ)1(μ)θθμg(.)=(γ)1(.)

1
γ(θ)=π=exp(θ)1+exp(θ)(γ)1(.)=logit(.)η=θg(.)θ=logit(π)=ηθηistnieje tylko wtedy, gdy użyjemy kanonicznej funkcji łącza.
Druss2k

2
μθηθ

16

Gung przytoczył dobre wyjaśnienie: link kanoniczny ma specjalne teoretyczne właściwości minimalnej wystarczalności. Oznacza to, że możesz zdefiniować warunkowy model logit (który ekonomiści nazywają modelem o stałym efekcie), uzależniając go od liczby wyników, ale nie możesz zdefiniować warunkowego modelu probit, ponieważ nie ma wystarczających statystyk do użycia z łączem probit.


Czy możesz rozwinąć nieco minimalną wystarczalność? Na podstawie powyższego wyjaśnienia nadal możemy zdefiniować model probitowy, prawda? Na pewno nie będzie to kanoniczna funkcja łącza, ale jaka szkoda w korzystaniu z niekanonicznej funkcji łącza.
pikachuchameleon

9

Oto mały schemat zainspirowany klasą MIT 18.650, który uważam za bardzo przydatny, ponieważ pomaga zwizualizować relacje między tymi funkcjami. Użyłem tego samego zapisu, co w poście @ momo:

wprowadź opis zdjęcia tutaj

  • γ(θ)
  • g(μ)

g

Schemat pozwala łatwo przejść z jednego kierunku do drugiego, na przykład:

η=g(γ(θ))
θ=γ1(g1(η))

Kanoniczna funkcja łącza

g

γ1g1=(gγ)1=I
θ=η

1

Powyższe odpowiedzi obejmują już to, co chcę powiedzieć. Aby wyjaśnić kilka kwestii jako badacza uczenia maszynowego:

  1. funkcja link jest niczym innym jak odwrotnością funkcji aktywacji. Na przykład logit jest odwrotnością sigmoidu, probit jest odwrotnością funkcji skumulowanego rozkładu Gaussa.

  2. wTxwx

Powyższa dyskusja nie ma nic wspólnego z wykładniczą rodziną, ale miłą dyskusję można znaleźć w książce PRML Christophera Bishopa Rozdział 4.3.6.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.