Odpowiedzi:
W takim przypadku możesz zwinąć swoje dane do gdzie to liczba wystąpień dla oraz z . Załóżmy, że ogólnie jest obserwacji. Sijx=iy=ji,j∈{0,1}n
Jeśli pasujemy do modelu (gdzie jest naszą funkcją łącza) że jest odsetka sukcesów, gdy a jest odsetka sukcesów, gdy . Innymi słowy, i \ hat \ beta_0 + \ hat \ beta_1 = g \ left ( \ frac {S_ {11}} {S_ {10} + S_ {11}} \ right). g β 0 x i = 0 β 0 + β 1 X i = 1 p 0 = g ( S 01 β 0+ β 1=g(S11
Sprawdźmy, czy to jest R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
Zatem współczynniki regresji logistycznej są dokładnie transformacjami proporcji pochodzących z tabeli.
Rezultatem jest to, że z pewnością możemy przeanalizować ten zestaw danych za pomocą regresji logistycznej, jeśli mamy dane pochodzące z szeregu zmiennych losowych Bernoulliego, ale okazuje się, że nie różni się to od bezpośredniej analizy wynikowej tabeli zdarzeń.
Chcę skomentować, dlaczego działa to z teoretycznego punktu widzenia. Kiedy dopasowujemy regresję logistyczną, korzystamy z modelu . Następnie decydujemy się modelować średnią jako transformację predyktora liniowego w lub w symbolach . W naszym przypadku mamy tylko dwie unikalne wartości , a zatem istnieją tylko dwie unikalne wartości , powiedzmy i . Z powodu naszego założenia niezależności mamy i
Oznacza to, że
Kluczowy wgląd tutaj: nasze RV Bernoulli są podczas gdy nasze dwumianowe RV to , ale oba mają takie samo prawdopodobieństwo sukcesu. To jest powód, dla którego te proporcje tabeli kontyngencji szacują to samo, co regresja logistyczna na poziomie obserwacji. To nie tylko zbieg okoliczności z tabelą: to bezpośrednia konsekwencja przyjętych przez nas założeń dystrybucyjnych.
Jeśli masz więcej niż jeden predyktor, a wszystkie predyktory są zmiennymi binarnymi, możesz dopasować model za pomocą regresji logicznej [1] (zwróć uwagę, że jest to „logika”, a nie „logistyka”). Jest to przydatne, gdy uważasz, że efekty interakcji między predyktorami są znaczące. Istnieje implementacja w R ( LogicReg
pakiet).
[1] Rucziński, I., Kooperberg, C., i LeBlanc, M. (2003). Regresja logiczna. Journal of Computational and grafist Statistics, 12 (3), 475-511.