Regresję logistyczną można opisać jako kombinację liniową
η= β0+ β1X1+ . . . + βkXk
który jest przekazywany przez funkcję link :sol
sol( E( Y) ) = η
gdzie funkcja link jest funkcją logowania
mi( Y| X, β) = p = logit- 1( η)
gdzie przyjmuje tylko wartości z { 0 , 1 }, a odwrotne funkcje logitowe przekształcają kombinację liniową η na ten zakres. Tu kończy się klasyczna regresja logistyczna.Y{ 0 , 1 }η
Jeśli jednak przypomnisz sobie, że dla zmiennych, które przyjmują tylko wartości w { 0 , 1 } , to E ( Y | X , β ) można uznać za P ( Y = 1 | X , β ) . W takim przypadku dane wyjściowe funkcji logit można uznać za warunkowe prawdopodobieństwo „sukcesu”, tj. P ( Y = 1 | X ,mi( Y) = P( Y= 1 ){ 0 , 1 }mi( Y| X, β)P.( Y= 1 | X, β) . Rozkład Bernoulliegojest rozkładem opisującym prawdopodobieństwo zaobserwowania wyniku binarnego, z pewnymparametrem p , więc możemy opisać Y jakoP.( Y= 1 | X, β)pY
yja∼ Bernoulli ( p )
Zatem przy regresji logistycznej szukamy niektórych parametrów które razem z niezależnymi zmiennymi X tworzą kombinację liniową η . W regresji klasycznej E ( Y | X , β ) = η (zakładamy, że funkcja link jest funkcją tożsamości), jednak w modelu Y, który przyjmuje wartości w { 0 , 1 } , musimy przekształcić η , aby dopasować [ 0 , 1 ] zasięg.βXηmi( Y| X, β) = ηY{ 0 , 1 }η[ 0 , 1 ]
Teraz, aby oszacować regresję logistyczną w sposób bayesowski, wyłapujesz niektóre priorytety dla parametrów jak w przypadku regresji liniowej (patrz Kruschke i in., 2012 ), a następnie użyj funkcji logit do przekształcenia kombinacji liniowej η , aby użyć jej wyniku jako p parametr rozkładu Bernoulliego opisujący zmienną Y. Tak, tak, faktycznie używasz równania i funkcji logit w taki sam sposób, jak w przypadku częstotliwości, a reszta działa (np. Wybierając priory), podobnie jak szacowanie regresji liniowej metodą bayesowską.βjaηpY
Prostym podejściem do wyboru priorów jest wybranie rozkładów normalnych (ale możesz również użyć innych rozkładów, np. Rozkład - lub Laplace'a dla bardziej wytrzymałego modelu) dla β i z parametrami μ i i σ 2 i, które są ustawione lub wzięte z hierarchiczne priory . Teraz, mając definicję modelu, możesz użyć oprogramowania takiego jak JAGS, aby przeprowadzić symulację Markov Chain Monte Carlo , aby oszacować model. Poniżej kod pocztowy Jags dla prostego modelu logistycznego (sprawdź tutaj po więcej przykładów).tβjaμjaσ2)ja
model {
# setting up priors
a ~ dnorm(0, .0001)
b ~ dnorm(0, .0001)
for (i in 1:N) {
# passing the linear combination through logit function
logit(p[i]) <- a + b * x[i]
# likelihood function
y[i] ~ dbern(p[i])
}
}
Jak widać, kod bezpośrednio przekłada się na definicję modelu. Jakie oprogramowanie robi to rysuje pewne wartości z normalnego priors na a
i b
, a następnie wykorzystuje te wartości do oszacowania p
i wreszcie, wykorzystuje funkcję prawdopodobieństwa ocenić na ile prawdopodobne jest dane podane te parametry (to jest, gdy używasz Twierdzenie Bayesa, patrz tutaj dla bardziej szczegółowy opis).
Podstawowy model regresji logistycznej można rozszerzyć w celu modelowania zależności między predyktorami przy użyciu modelu hierarchicznego (w tym hiperpriorów ). W takim przypadku możesz narysować z wielowymiarowego rozkładu normalnego, który pozwala nam zawrzeć informację o kowariancji Σ między zmiennymi niezależnymiβjaΣ
⎛⎝⎜⎜⎜⎜β0β1⋮βk⎞⎠⎟⎟⎟⎟∼ M V N ⎛⎝⎜⎜⎜⎜⎜⎡⎣⎢⎢⎢⎢μ0μ1⋮μk⎤⎦⎥⎥⎥⎥, ⎡⎣⎢⎢⎢⎢⎢σ2)0σ1 , 0⋮σk , 0σ0 , 1σ2)1⋮σk , 1……⋱…σ0 , kσ1 , k⋮σ2)k⎤⎦⎥⎥⎥⎥⎥⎞⎠⎟⎟⎟⎟⎟
... ale chodzi tu o szczegóły, więc zatrzymajmy się tutaj.
Część „bayesowska” tutaj wybiera priorytety, używając twierdzenia Bayesa i definiując model w kategoriach probabilistycznych. Zobacz tutaj definicję „modelu bayesowskiego”, a tutaj ogólną intuicję dotyczącą podejścia bayesowskiego . Można także zauważyć, że dzięki temu podejściu definiowanie modeli jest dość proste i elastyczne.
Kruschke, JK, Aguinis, H., i Joo, H. (2012). Nadszedł czas: Bayesowskie metody analizy danych w naukach organizacyjnych. Metody badań organizacyjnych, 15 (4), 722-752.
Gelman, A., Jakulin, A., Pittau, GM, i Su, Y.-S. (2008). Słabo informacyjna domyślna wcześniejsza dystrybucja modeli logistycznych i innych modeli regresji. The Annals of Applied Statistics, 2 (4), 1360–1383.