Bayesowski model logitów - intuicyjne wyjaśnienie?

Muszę wyznać, że wcześniej nie słyszałem o tym terminie na żadnej z moich zajęć, na studiach licencjackich ani na studiach.

Co to znaczy, że regresja logistyczna jest Bayesowska? Szukam wyjaśnienia z przejściem od logistyki zwykłej do logistyki bayesowskiej podobnej do następującej:

Jest to równanie w modelu regresji liniowej: . $E(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$

Jest to równanie w modelu regresji logistycznej: . Odbywa się to, gdy y jest kategoryczny. $\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$

To, co zrobiliśmy, to zmiana na . $E(y)$ $\ln(\frac{E(y)}{1-E(y)})$

Co zatem zrobiono z modelem regresji logistycznej w bayesowskiej regresji logistycznej? Zgaduję, że to nie ma nic wspólnego z równaniem.

Ten podgląd książki wydaje się definiować, ale tak naprawdę nie rozumiem. Czym są te wszystkie wcześniejsze rzeczy dotyczące prawdopodobieństwa? Co to jest ? Czy ktoś mógłby wyjaśnić tę część książki lub model logitów bayesowskich w inny sposób? $\alpha$

Uwaga: Myślę, że zostało to już wcześniej zadane, ale nie zostało udzielone zbyt dobrej odpowiedzi.

— BCLC
źródło

Nie chcę odpowiedzieć na to pytanie, ponieważ myślę, że @Tim ma na to większość odpowiedzi. Jedyną rzeczą, której brakuje w tej świetnej odpowiedzi, jest to, że w bayesowskiej regresji logistycznej i bayesowskich uogólnionych modelach liniowych (GLM) bardziej ogólnie, wcześniejsze rozkłady nie są umieszczane tylko nad współczynnikami, ale nad wariancjami i kowariancją tych współczynników. Jest to niezwykle ważne, aby o tym wspomnieć, ponieważ jedną z kluczowych zalet bayesowskiego podejścia do GLM jest większa łatwość określania, aw wielu przypadkach także dopasowania złożonych modeli kowariancji współczynników.

— Brash Equilibrium

@BrashEquilibrium: wspominasz o możliwym hierarchicznym rozszerzeniu standardowego modelowania bayesowskiego dla modelu logit. W naszej książce używamy na przykład przed G na

„s, przed ustalający macierzy kowariancji pochodzi od współzmiennych

β

$\beta$

X

$X$

— Xi'an

Wystarczająco uczciwy na g Prior.

— Brash Equilibrium

To powiedziawszy, nadal istnieje przejęcie kowariancji !!!!!! Jeśli nie dyskutujesz, nie opisujesz, jak regresja logistyczna działa całkowicie.

— Brash Equilibrium

Odpowiedzi:

Regresję logistyczną można opisać jako kombinację liniową

η = β_{0} + β_{1} X_{1} + . . . + β_{k} X_{k}

$\eta = \beta_0 + \beta_1 X_1 + ... + \beta_k X_k$

który jest przekazywany przez funkcję link : $g$

g (E (Y)) = η

$g(E(Y)) = \eta$

gdzie funkcja link jest funkcją logowania

E (Y | X, β) = p = {logit}^{- 1} (η)

$E(Y|X,\beta) = p = \text{logit}^{-1}( \eta )$

gdzie przyjmuje tylko wartości z a odwrotne funkcje logitowe przekształcają kombinację liniową na ten zakres. Tu kończy się klasyczna regresja logistyczna. $Y$ $\{0,1\}$ $\eta$

Jeśli jednak przypomnisz sobie, że dla zmiennych, które przyjmują tylko wartości w , to można uznać za . W takim przypadku dane wyjściowe funkcji logit można uznać za warunkowe prawdopodobieństwo „sukcesu”, tj. $E(Y) = P(Y = 1)$ $\{0,1\}$ $E(Y | X,\beta)$ $P(Y = 1 | X,\beta)$ . Rozkład Bernoulliegojest rozkładem opisującym prawdopodobieństwo zaobserwowania wyniku binarnego, z pewnymparametrem , więc możemy opisać jako $P(Y=1|X,\beta)$ $p$ $Y$

y_{i} \sim Bernoulli (p)

$y_i \sim \text{Bernoulli}(p)$

Zatem przy regresji logistycznej szukamy niektórych parametrów które razem z niezależnymi zmiennymi tworzą kombinację liniową . W regresji klasycznej (zakładamy, że funkcja link jest funkcją tożsamości), jednak w modelu który przyjmuje wartości w , musimy przekształcić , aby dopasować zasięg. $\beta$ $X$ $\eta$ $E(Y|X,\beta) = \eta$ $Y$ $\{0,1\}$ $\eta$ $[0,1]$

Teraz, aby oszacować regresję logistyczną w sposób bayesowski, wyłapujesz niektóre priorytety dla parametrów jak w przypadku regresji liniowej (patrz Kruschke i in., 2012 ), a następnie użyj funkcji logit do przekształcenia kombinacji liniowej , aby użyć jej wyniku jako parametr rozkładu Bernoulliego opisujący zmienną Tak, tak, faktycznie używasz równania i funkcji logit w taki sam sposób, jak w przypadku częstotliwości, a reszta działa (np. Wybierając priory), podobnie jak szacowanie regresji liniowej metodą bayesowską. $\beta_i$ $\eta$ $p$ $Y$

Prostym podejściem do wyboru priorów jest wybranie rozkładów normalnych (ale możesz również użyć innych rozkładów, np. Rozkład - lub Laplace'a dla bardziej wytrzymałego modelu) dla z parametrami i które są ustawione lub wzięte z hierarchiczne priory . Teraz, mając definicję modelu, możesz użyć oprogramowania takiego jak JAGS, aby przeprowadzić symulację Markov Chain Monte Carlo , aby oszacować model. Poniżej kod pocztowy Jags dla prostego modelu logistycznego (sprawdź tutaj po więcej przykładów). $t$ $\beta_i$ $\mu_i$ $\sigma_i^2$

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

Jak widać, kod bezpośrednio przekłada się na definicję modelu. Jakie oprogramowanie robi to rysuje pewne wartości z normalnego priors na ai b, a następnie wykorzystuje te wartości do oszacowania pi wreszcie, wykorzystuje funkcję prawdopodobieństwa ocenić na ile prawdopodobne jest dane podane te parametry (to jest, gdy używasz Twierdzenie Bayesa, patrz tutaj dla bardziej szczegółowy opis).

Podstawowy model regresji logistycznej można rozszerzyć w celu modelowania zależności między predyktorami przy użyciu modelu hierarchicznego (w tym hiperpriorów ). W takim przypadku możesz narysować z wielowymiarowego rozkładu normalnego, który pozwala nam zawrzeć informację o kowariancji między zmiennymi niezależnymi $\beta_i$ $\boldsymbol{\Sigma}$

(\begin{matrix} β_{0} \\ β_{1} \\ ⋮ \\ β_{k} \end{matrix}) \sim M V N ([\begin{matrix} μ_{0} \\ μ_{1} \\ ⋮ \\ μ_{k} \end{matrix}], [\begin{matrix} σ_{0}^{2} & σ_{0, 1} & \dots & σ_{0, k} \\ σ_{1, 0} & σ_{1}^{2} & \dots & σ_{1, k} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ σ_{k, 0} & σ_{k, 1} & \dots & σ_{k}^{2} \end{matrix}])

$\begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} \sim \mathrm{MVN} \left( \begin{bmatrix} \mu_0 \\ \mu_1 \\ \vdots \\ \mu_k \end{bmatrix}, \begin{bmatrix} \sigma^2_0 & \sigma_{0,1} & \ldots & \sigma_{0,k} \\ \sigma_{1,0} & \sigma^2_1 & \ldots &\sigma_{1,k} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{k,0} & \sigma_{k,1} & \ldots & \sigma^2_k \end{bmatrix} \right)$

... ale chodzi tu o szczegóły, więc zatrzymajmy się tutaj.

Część „bayesowska” tutaj wybiera priorytety, używając twierdzenia Bayesa i definiując model w kategoriach probabilistycznych. Zobacz tutaj definicję „modelu bayesowskiego”, a tutaj ogólną intuicję dotyczącą podejścia bayesowskiego . Można także zauważyć, że dzięki temu podejściu definiowanie modeli jest dość proste i elastyczne.

Kruschke, JK, Aguinis, H., i Joo, H. (2012). Nadszedł czas: Bayesowskie metody analizy danych w naukach organizacyjnych. Metody badań organizacyjnych, 15 (4), 722-752.

Gelman, A., Jakulin, A., Pittau, GM, i Su, Y.-S. (2008). Słabo informacyjna domyślna wcześniejsza dystrybucja modeli logistycznych i innych modeli regresji. The Annals of Applied Statistics, 2 (4), 1360–1383.

— Tim
źródło

Potrzebujesz dowodów na rozbieżności, a nie tylko współczynniki.

— Brash Equilibrium,

g

$g$

η

$\eta$

η = β_{0} + β_{1} X_{1}

$\eta = \beta_0 + \beta_1 X_1$

g

$g$

E (Y) = η

$E(Y) = \eta$

@BCLC sprawdź linki w mojej odpowiedzi, zawierają one ogólne wprowadzenie do statystyki bayesowskiej. Jest to znacznie szerszy temat niż ten wymieniony w początkowym pytaniu, ale można znaleźć miłe wprowadzenie w odniesieniach, które podałem w mojej odpowiedzi.

— Tim

@Tim Zrobiłem tam literówkę. Dowody mają czytać priory. Zasadniczo współczynniki to nie jedyne nieznane parametry. Rozkład wielomianowy ma również macierz kowariancji wariancji i zazwyczaj nie zakładamy, że jest znany.

— Brash Equilibrium,

„Część„ bayesowska ”tutaj wybiera priorytety, używając twierdzenia Bayesa i definiując model w kategoriach probabilistycznych.” Dobrym odniesieniem jest tutaj Gelman i in. SŁABO INFORMACYJNA DOMYŚLNA DOMYŚLNA DYSTRYBUCJA DLA MODELI LOGISTYCZNYCH I INNYCH REJESTRACJI stat.columbia.edu/~gelman/research/published/priors11.pdf

— Dalton Hance

Czym są te wszystkie wcześniejsze rzeczy dotyczące prawdopodobieństwa?

Właśnie dlatego Bayesian. Generatywny model danych jest taki sam; różnica polega na tym, że analiza bayesowska wybiera wcześniejszy rozkład parametrów będących przedmiotem zainteresowania i oblicza lub aproksymuje rozkład tylny , na którym opiera się wszystkie wnioski. Zasada Bayesa odnosi się do dwóch: Tylna część ciała jest proporcjonalna do czasów prawdopodobieństwa wcześniejszych.

$\bf\beta$

Niektóre modele częstych mogą być powiązane z odpowiednikiem bayesowskim z konkretnym przeorem, choć nie jestem pewien, co odpowiada w tym przypadku.

— Sean Easter
źródło

β

$\beta$

β

$\beta$

β_{1}, β_{2}, . . ., β_{n}

$\beta_1, \beta_2, ..., \beta_n$

X_{1}

$X_1$

X_{2}

$X_2$

X_{n}

$X_n$

β

$\beta$

@BCLC Aby odpowiedzieć na te pytania, zacznę od samego procesu wnioskowania bayesowskiego i definiuję terminy w miarę upływu czasu: Bayesianie traktują wszystkie interesujące parametry jako zmienne losowe i aktualizują swoje przekonania na temat tych parametrów w świetle danych. Przed dystrybucja wyraża swoje przekonanie o parametrach Przed analizą danych; * rozkład tylny * - zgodnie z regułą Bayesa, znormalizowanym iloczynem wcześniejszego i prawdopodobieństwa - podsumowuje niepewne przekonanie o parametrach w świetle wcześniejszego i danych. Obliczanie tyłu jest miejscem, w którym ma miejsce dopasowanie.

— Sean Easter

β

$\beta$

p

$p$

p

$p$

Okej, myślę, że rozumiem cię lepiej po przeczytaniu Eseju na temat rozwiązania problemu w Doktrynie szans . Dzięki SeanEster

— BCLC

P (B)

$P(B)$