Krótka wersja:
Wiemy, że regresję logistyczną i regresję probitową można interpretować jako obejmującą ciągłą zmienną ukrytą, która jest dyskretyzowana według pewnego ustalonego progu przed obserwacją. Czy dostępna jest podobna interpretacja zmiennej ukrytej dla, powiedzmy, regresji Poissona? Co powiesz na regresję dwumianową (np. Logit lub probit), gdy występują więcej niż dwa dyskretne wyniki? Na najbardziej ogólnym poziomie, czy istnieje sposób interpretacji dowolnego GLM pod względem zmiennych ukrytych?
Długa wersja:
Standardowy sposób motywowania modelu probit dla wyników binarnych (np. Z Wikipedii ) jest następujący. Mamy zauważony / utajony outcome zmiennej , która ma rozkład normalny, warunkową na predyktora . Ta ukryta zmienna jest poddawana procesowi progowania, tak że dyskretny wynik, który faktycznie obserwujemy, wynosi jeśli , jeśli . Prowadzi to prawdopodobieństwo podane przybrać formę normalnego CDF, ze średnim i standardowym odchyleniem funkcję progu i nachylenie regresji nau = 1 X γ Y X Y X odpowiednio. Tak więc model probit jest uzasadnione jako sposób szacowania nachylenia z tego utajonego regresji w .
Ilustruje to poniższy wykres z Thissen & Orlando (2001). Autorzy ci technicznie omawiają normalny model ostroogowy z teorii odpowiedzi na przedmioty, który do naszych celów przypomina w zasadzie regresję probitową (zauważ, że ci autorzy używają zamiast , a prawdopodobieństwo jest zapisywane za pomocą zamiast zwykłego ).X T P
Możemy interpretować regresję logistyczną niemal dokładnie w ten sam sposób . Jedyną różnicą jest to, że obecnie nie zauważony ciągły następuje logistycznego dystrybucji, nie jest normalne, biorąc pod uwagę dystrybucję . Teoretyczny argument przemawiający za tym, że może podążać za rozkładem logistycznym, a nie za rozkładem normalnym, jest nieco mniej jasny ... ale ponieważ wynikowa krzywa logistyczna wygląda zasadniczo tak samo jak normalny CDF do celów praktycznych (po przeskalowaniu), prawdopodobnie wygrał ” W praktyce nie ma znaczenia, jakiego modelu używasz. Chodzi o to, że oba modele mają dość prostą interpretację ukrytej zmiennej.X Y
Chcę wiedzieć, czy możemy zastosować podobnie wyglądające (lub, do diabła, odmienne) interpretacje ukrytych zmiennych do innych GLM, a nawet do dowolnego GLM.
Nawet rozszerzenie powyższych modeli w celu uwzględnienia wyników dwumianowych z (tj. Nie tylko wyników Bernoulliego) nie jest dla mnie całkowicie jasne. Można przypuszczać, że można to zrobić, wyobrażając sobie, że zamiast jednego progu mamy wiele progów (jeden mniej niż liczba zaobserwowanych dyskretnych wyników). Musielibyśmy jednak nałożyć pewne ograniczenia na progi, tak aby były one równomiernie rozmieszczone. Jestem pewien, że coś takiego mogłoby zadziałać, chociaż nie opracowałem szczegółów.γ
Przejście do przypadku regresji Poissona wydaje mi się jeszcze mniej jasne. Nie jestem pewien, czy pojęcie progów będzie najlepszym sposobem myślenia o modelu w tym przypadku. Nie jestem również pewien, jaki rodzaj dystrybucji moglibyśmy sobie wyobrazić jako ukryty wynik.
Najbardziej pożądanym rozwiązaniem tego problemu byłby ogólny sposób interpretacji dowolnego GLM w kategoriach zmiennych utajonych z pewnymi rozkładami lub innymi - nawet gdyby to ogólne rozwiązanie sugerowało inną interpretację zmiennych utajonych niż zwykła regresja logit / probit. Oczywiście byłoby jeszcze fajniej, gdyby ogólna metoda była zgodna ze zwykłymi interpretacjami logit / probit, ale także naturalnie rozszerzyła się na inne GLM.
Ale nawet jeśli takie ukryte interpretacje zmiennych nie są ogólnie dostępne w ogólnym przypadku GLM, chciałbym również usłyszeć o interpretacjach zmiennych ukrytych specjalnych przypadków, takich jak przypadki dwumianowe i Poissona, o których wspomniałem powyżej.
Referencje
Thissen, D. & Orlando, M. (2001). Teoria odpowiedzi na przedmioty dla punktów uzyskanych w dwóch kategoriach. W D. Thissen i Wainer, H. (red.), Test Scoring (str. 73-140). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.
Edytuj 23.09.2016
Istnieje jeden rodzaj trywialnego sensu, w którym dowolny GLM jest modelem zmiennej utajonej, polegającym na tym, że prawdopodobnie zawsze możemy postrzegać parametr rozkładu wyniku oszacowany jako „zmienną utajoną” - to znaczy nie obserwujemy bezpośrednio powiedzmy, parametr szybkości Poissona, po prostu wnioskujemy go z danych. Uważam to za dość trywialną interpretację, a nie do końca to, czego szukam, ponieważ zgodnie z tą interpretacją każdy model liniowy (i oczywiście wiele innych modeli!) Jest „utajonym modelem zmiennej”. Na przykład, w regresji normalnej szacujemy „utajoną” normalnego danegoY X Y γ. Wydaje się więc, że łączy to ukryte modelowanie zmiennych z samym oszacowaniem parametrów. To, czego szukam, na przykład w przypadku regresji Poissona, bardziej przypominałoby model teoretyczny, dlaczego obserwowany wynik powinien mieć rozkład Poissona w pierwszej kolejności, biorąc pod uwagę pewne założenia (które należy wypełnić!) Na temat rozkład utajonego , proces selekcji, jeśli taki istnieje, itd. Następnie (być może kluczowe?) powinniśmy być w stanie zinterpretować oszacowane współczynniki GLM w kategoriach parametrów tych utajonych rozkładów / procesów, podobnie jak możemy interpretować współczynniki z regresji probitowej w kategoriach średnich przesunięć ukrytej zmiennej normalnej i / lub przesunięć progu .