Utajona interpretacja zmiennych uogólnionych modeli liniowych (GLM)

Krótka wersja:

Wiemy, że regresję logistyczną i regresję probitową można interpretować jako obejmującą ciągłą zmienną ukrytą, która jest dyskretyzowana według pewnego ustalonego progu przed obserwacją. Czy dostępna jest podobna interpretacja zmiennej ukrytej dla, powiedzmy, regresji Poissona? Co powiesz na regresję dwumianową (np. Logit lub probit), gdy występują więcej niż dwa dyskretne wyniki? Na najbardziej ogólnym poziomie, czy istnieje sposób interpretacji dowolnego GLM pod względem zmiennych ukrytych?

Długa wersja:

Standardowy sposób motywowania modelu probit dla wyników binarnych (np. Z Wikipedii ) jest następujący. Mamy zauważony / utajony outcome zmiennej , która ma rozkład normalny, warunkową na predyktora . Ta ukryta zmienna jest poddawana procesowi progowania, tak że dyskretny wynik, który faktycznie obserwujemy, wynosi jeśli , jeśli . Prowadzi to prawdopodobieństwo podane przybrać formę normalnego CDF, ze średnim i standardowym odchyleniem funkcję progu i nachylenie regresji na $Y$ $X$ $u=1$ $Y \ge \gamma$ $u=0$ $Y < \gamma$ $u=1$ $X$ $\gamma$ $Y$ $X$ odpowiednio. Tak więc model probit jest uzasadnione jako sposób szacowania nachylenia z tego utajonego regresji w . $Y$ $X$

Ilustruje to poniższy wykres z Thissen & Orlando (2001). Autorzy ci technicznie omawiają normalny model ostroogowy z teorii odpowiedzi na przedmioty, który do naszych celów przypomina w zasadzie regresję probitową (zauważ, że ci autorzy używają zamiast , a prawdopodobieństwo jest zapisywane za pomocą zamiast zwykłego ). $\theta$ $X$ $T$ $P$

Możemy interpretować regresję logistyczną niemal dokładnie w ten sam sposób . Jedyną różnicą jest to, że obecnie nie zauważony ciągły następuje logistycznego dystrybucji, nie jest normalne, biorąc pod uwagę dystrybucję . Teoretyczny argument przemawiający za tym, że może podążać za rozkładem logistycznym, a nie za rozkładem normalnym, jest nieco mniej jasny ... ale ponieważ wynikowa krzywa logistyczna wygląda zasadniczo tak samo jak normalny CDF do celów praktycznych (po przeskalowaniu), prawdopodobnie wygrał ” W praktyce nie ma znaczenia, jakiego modelu używasz. Chodzi o to, że oba modele mają dość prostą interpretację ukrytej zmiennej. $Y$ $X$ $Y$

Chcę wiedzieć, czy możemy zastosować podobnie wyglądające (lub, do diabła, odmienne) interpretacje ukrytych zmiennych do innych GLM, a nawet do dowolnego GLM.

Nawet rozszerzenie powyższych modeli w celu uwzględnienia wyników dwumianowych z (tj. Nie tylko wyników Bernoulliego) nie jest dla mnie całkowicie jasne. Można przypuszczać, że można to zrobić, wyobrażając sobie, że zamiast jednego progu mamy wiele progów (jeden mniej niż liczba zaobserwowanych dyskretnych wyników). Musielibyśmy jednak nałożyć pewne ograniczenia na progi, tak aby były one równomiernie rozmieszczone. Jestem pewien, że coś takiego mogłoby zadziałać, chociaż nie opracowałem szczegółów. $n>1$ $\gamma$

Przejście do przypadku regresji Poissona wydaje mi się jeszcze mniej jasne. Nie jestem pewien, czy pojęcie progów będzie najlepszym sposobem myślenia o modelu w tym przypadku. Nie jestem również pewien, jaki rodzaj dystrybucji moglibyśmy sobie wyobrazić jako ukryty wynik.

Najbardziej pożądanym rozwiązaniem tego problemu byłby ogólny sposób interpretacji dowolnego GLM w kategoriach zmiennych utajonych z pewnymi rozkładami lub innymi - nawet gdyby to ogólne rozwiązanie sugerowało inną interpretację zmiennych utajonych niż zwykła regresja logit / probit. Oczywiście byłoby jeszcze fajniej, gdyby ogólna metoda była zgodna ze zwykłymi interpretacjami logit / probit, ale także naturalnie rozszerzyła się na inne GLM.

Ale nawet jeśli takie ukryte interpretacje zmiennych nie są ogólnie dostępne w ogólnym przypadku GLM, chciałbym również usłyszeć o interpretacjach zmiennych ukrytych specjalnych przypadków, takich jak przypadki dwumianowe i Poissona, o których wspomniałem powyżej.

Referencje

Thissen, D. & Orlando, M. (2001). Teoria odpowiedzi na przedmioty dla punktów uzyskanych w dwóch kategoriach. W D. Thissen i Wainer, H. (red.), Test Scoring (str. 73-140). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.

Edytuj 23.09.2016

Istnieje jeden rodzaj trywialnego sensu, w którym dowolny GLM jest modelem zmiennej utajonej, polegającym na tym, że prawdopodobnie zawsze możemy postrzegać parametr rozkładu wyniku oszacowany jako „zmienną utajoną” - to znaczy nie obserwujemy bezpośrednio powiedzmy, parametr szybkości Poissona, po prostu wnioskujemy go z danych. Uważam to za dość trywialną interpretację, a nie do końca to, czego szukam, ponieważ zgodnie z tą interpretacją każdy model liniowy (i oczywiście wiele innych modeli!) Jest „utajonym modelem zmiennej”. Na przykład, w regresji normalnej szacujemy „utajoną” normalnego danego $\mu$ $Y$ $X$ . Wydaje się więc, że łączy to ukryte modelowanie zmiennych z samym oszacowaniem parametrów. To, czego szukam, na przykład w przypadku regresji Poissona, bardziej przypominałoby model teoretyczny, dlaczego obserwowany wynik powinien mieć rozkład Poissona w pierwszej kolejności, biorąc pod uwagę pewne założenia (które należy wypełnić!) Na temat rozkład utajonego , proces selekcji, jeśli taki istnieje, itd. Następnie (być może kluczowe?) powinniśmy być w stanie zinterpretować oszacowane współczynniki GLM w kategoriach parametrów tych utajonych rozkładów / procesów, podobnie jak możemy interpretować współczynniki z regresji probitowej w kategoriach średnich przesunięć ukrytej zmiennej normalnej i / lub przesunięć progu . $Y$ $\gamma$

— Jake Westfall
źródło

Czy możemy sformułować twoje pytanie jako „dla jakich rodzin GLM predyktor liniowy odpowiada parametrowi lokalizacji dla jakiegoś ciągłego rozkładu i modelowi selekcji?” W przypadku regresji probitowej i logistycznej predyktorem liniowym jest odpowiednio parametr lokalizacji rozkładu Gaussa i logistyki. Model wyboru ma próg 0 (FWIW, nie sądzę, że będzie wielu innych - i faktycznie Probit / Logistic to ta sama rodzina, ale z różnymi funkcjami łączenia ...)

— Andrew M

@AndrewM Myślę, że przeredagowanie może prawdopodobnie działać dla GLM z dyskretnymi wynikami. Ale waham się sprowadzić do tego całe pytanie, ponieważ tak naprawdę nie widzę, jak taki model lokalizacji i selekcji mógłby działać dla GLM z ciągłymi wynikami. Tak więc przeredagowanie wydaje się prawie wykluczać odpowiedź dla tych GLM

— Jake Westfall,

Modele klasy utajonej należą do kategorii modeli o skończonej mieszance. Jednym z prostych sposobów myślenia o nich jest to, że są nadzorowanymi modelami uczenia się, które z tyłu dzielą heterogeniczność reszt z modelu na grupy. Podobną logikę i podział można zastosować do heterogeniczności właściwej dla reszt z dowolnego modelu, w tym GLM. Oczywiście podejście do tego partycjonowania może być nietrywialnym wyborem i może być kluge rozwiązaniem, ale może zostać uruchomione.

— Mike Hunter,

Jeśli glm indukuje rozkład

nie możemy wybrać bardzo wielu ukrytych rozkładów

f (y_{i} | η_{i})

$f(y_i|\eta_i)$

g (θ_{i} | η_{i})

$g(\theta_i|\eta_i)$

f (y_{i} | η_{i}) = \int f (y_{i} | η_{i}, θ_{i}) g (θ_{i} | η_{i}) d θ_{i}

$f(y_i|\eta_i) = \int f(y_i|\eta_i, \theta_i) g(\theta_i|\eta_i) d\theta_i$

— Andrew M

Uporządkowany probit może mieć podobną interpretację. Zobacz artykuł Becker & Kennedy w ET.

— Dimitriy V. Masterov,

W przypadku modeli z więcej niż jednym dyskretnym wynikiem istnieje kilka wersji modeli logit (np. Logit warunkowy, logika wielomianowa, logit mieszany, logit zagnieżdżony, ...). Zobacz książkę Kennetha Train na ten temat: http://eml.berkeley.edu/books/choice2.html

Na przykład w logcie warunkowym wynik, $y$ $J$ $j$ $x_j$ $i$ $u_{ij} = x_j \beta + \varepsilon_{ij}$ $j$ $\varepsilon_{ij}$ $j$

Pr (y = j) = \frac{\exp (x_{j} β)}{\sum_{k = 1}^{J} \exp (x_{k} β)}

$\Pr(y=j) = \frac{\exp(x_j \beta)}{\sum_{k=1}^J \exp (x_k \beta)}$

$u_{ij}$ $\beta$

$u$

Zauważ, że nie ma tutaj parametru „progowego”: zamiast tego, gdy jedno narzędzie stanie się większe niż poprzednio największe, wówczas konsument przełączy się na wybór tej alternatywy.

$x_j \beta$

— Superpronker
źródło