Regresja logistyczna: zmienne Bernoulliego vs. dwumianowe odpowiedzi

Chcę przeprowadzić regresję logistyczną z następującą odpowiedzią dwumianową oraz z i jako moimi predyktorami. $X_1$ $X_2$

wprowadź opis zdjęcia tutaj

Mogę przedstawić te same dane, co odpowiedzi Bernoulliego w następującym formacie.

wprowadź opis zdjęcia tutaj

Wyniki regresji logistycznej dla tych 2 zestawów danych są w większości takie same. Wartości odchylenia i AIC są różne. (Różnica między dewiacją zerową a dewiacją szczątkową jest taka sama w obu przypadkach - 0,228).

Poniżej przedstawiono wyniki regresji z R. Zestawy danych nazywane są binom.data i bern.data.

Oto wyjście dwumianowe.

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

Oto wyjście Bernoulli.

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

Moje pytania:

1) Widzę, że oszacowania punktowe i standardowe błędy między dwoma podejściami są równoważne w tym konkretnym przypadku. Czy ogólnie ta równoważność jest prawdziwa?

2) Jak matematycznie uzasadnić odpowiedź na pytanie nr 1?

3) Dlaczego reszty odchylenia i AIC są różne?

— Naukowiec
źródło

Odpowiedzi:

1) Tak Możesz agregować / de-agregować (?) Dane dwumianowe od osób o tych samych współzmiennych. Wynika to z faktu, że wystarczającą statystyką dla modelu dwumianowego jest całkowita liczba zdarzeń dla każdego wektora współzmiennego; a Bernoulli jest tylko specjalnym przypadkiem dwumianu. Intuicyjnie każda próba Bernoulliego, która składa się na wynik dwumianowy, jest niezależna, więc nie powinno być różnicy między zaliczeniem ich jako pojedynczego wyniku lub jako oddzielnych indywidualnych prób.

2) Powiedzmy, że mamy unikatowych wektorów towarzyszących , z których każdy ma wynik dwumianowy w próbach , tj. regresję logistyczną model, więc chociaż później przekonamy się, że to nie jest ważne. $n$ $x_1, x_2, \ldots, x_n$ $N_i$

Y_{i} \sim B i n (N_{i}, p_{i})

$Y_i \sim \mathrm{Bin}(N_i, p_i)$

l o g i t (p_{i}) = \sum_{k = 1}^{K} β_{k} x_{i k}

$\mathrm{logit}(p_i) = \sum_{k=1}^K \beta_k x_{ik}$

Prawdopodobieństwo dziennika dla tego modelu to i maksymalizujemy to w odniesieniu do (w kategoriach ), aby uzyskać nasze oszacowania parametrów.

ℓ (β; Y) = \sum_{i = 1}^{n} \log (\binom{N_{i}}{Y_{i}}) + Y_{i} \log (p_{i}) + (N_{i} - Y_{i}) \log (1 - p_{i})

$\ell(\beta; Y) = \sum_{i=1}^n \log {N_i \choose Y_i} + Y_i \log(p_i) + (N_i - Y_i) \log(1-p_i)$

β

$\beta$

p_{i}

$p_i$

Teraz uważają, że dla każdego , możemy podzielić dwumianowego wynik w indywidualne Bernoulliego / rezultatów binarnych, jak masz zrobić. W szczególności utwórz To znaczy, pierwsze to 1, a reszta to 0. To jest dokładnie to, co zrobiłeś - ale równie dobrze mógłbyś zrobić pierwszy jako 0, a resztę jako 1 lub jakikolwiek inny porządek, prawda? $i = 1, \ldots, n$ $N_i$

Z_{i 1}, \dots, Z_{i Y_{i}} = 1

$Z_{i1}, \ldots, Z_{iY_i} = 1$

Z_{i (Y_{i} + 1)}, \dots, Z_{i N_{i}} = 0

$Z_{i(Y_i+1)}, \ldots, Z_{iN_i} = 0$

Y_{i}

$Y_i$

(N_{i} - Y_{i})

$(N_i - Y_i)$

Drugi model mówi, że z tym samym modelem regresji dla jak powyżej. Prawdopodobieństwo dziennika dla tego modelu to a ze względu na sposób, w jaki zdefiniowaliśmy nasze s, można to uprościć do które powinny wyglądać dość znajomo.

Z_{i j} \sim B e r n o u l l i (p_{i})

$Z_{ij} \sim \mathrm{Bernoulli}(p_i)$

p_{i}

$p_i$

ℓ (β; Z) = \sum_{i = 1}^{n} \sum_{j = 1}^{N_{i}} Z_{i j} \log (p_{i}) + (1 - Z_{i j}) \log (1 - p_{i})

$\ell(\beta; Z) = \sum_{i=1}^n \sum_{j=1}^{N_i} Z_{ij}\log(p_i) + (1-Z_{ij})\log(1-p_i)$

Z_{i j}

$Z_{ij}$

ℓ (β; Y) = \sum_{i = 1}^{n} Y_{i} \log (p_{i}) + (N_{i} - Y_{i}) \log (1 - p_{i})

$\ell(\beta; Y) = \sum_{i=1}^n Y_i \log(p_i) + (N_i - Y_i)\log(1-p_i)$

Aby uzyskać szacunki w drugim modelu, maksymalizujemy to w odniesieniu do . Jedyną różnicą między tym a pierwszym prawdopodobieństwem logarytmicznym jest termin , który jest stały w stosunku do , a więc nie wpływa na maksymalizację i otrzymamy takie same oszacowania. $\beta$ $\log {N_i \choose Y_i}$ $\beta$

3) Każda obserwacja ma odchylenie resztkowe. W modelu dwumianowym są to gdzie to oszacowane prawdopodobieństwo z twojego modelu. Zauważ, że twój model dwumianowy jest nasycony (0 pozostałych stopni swobody) i ma idealne dopasowanie: dla wszystkich obserwacji, więc dla wszystkich .

D_{i} = 2 [Y_{i} \log (\frac{Y_{i} / N_{i}}{{\hat{p}}_{i}}) + (N_{i} - Y_{i}) \log (\frac{1 - Y_{i} / N_{i}}{1 - {\hat{p}}_{i}})]

$D_i = 2\left[Y_i \log \left( \frac{Y_i/N_i}{\hat{p}_i} \right) + (N_i-Y_i) \log \left( \frac{1-Y_i/N_i}{1-\hat{p}_i} \right)\right]$

{\hat{p}}_{i}

$\hat{p}_i$

{\hat{p}}_{i} = Y_{i} / N_{i}

$\hat{p}_i = Y_i/N_i$

D_{i} = 0

$D_i = 0$

i

$i$

W modelu Bernoulli Poza tym, że teraz będziesz mieć odchylenia (zamiast jak w przypadku danych dwumianowych), będą to albo lub zależności od tego, czy czy , i oczywiście nie są takie same jak powyżej. Nawet jeśli zsumujesz je przez aby uzyskać sumę resztek odchyleń dla każdego , nie otrzymasz tego samego:

D_{i j} = 2 [Z_{i j} \log (\frac{Z_{i j}}{{\hat{p}}_{i}}) + (1 - Z_{i j}) \log (\frac{1 - Z_{i j}}{1 - {\hat{p}}_{i}})]

$D_{ij} = 2\left[Z_{ij} \log \left( \frac{Z_{ij}}{\hat{p}_i} \right) + (1-Z_{ij}) \log \left(\frac{1-Z_{ij}}{1-\hat{p}_i} \right)\right]$

\sum_{i = 1}^{n} N_{i}

$\sum_{i=1}^n N_i$

n

$n$

D_{i j} = - 2 \log ({\hat{p}}_{i})

$D_{ij} = -2\log(\hat{p}_i)$

D_{i j} = - 2 \log (1 - {\hat{p}}_{i})

$D_{ij} = -2\log(1-\hat{p}_i)$

Z_{i j} = 1

$Z_{ij} = 1$

0

$0$

j

$j$

i

$i$

D_{i} = \sum_{j = 1}^{N_{i}} D_{i j} = 2 [Y_{i} \log (\frac{1}{{\hat{p}}_{i}}) + (N_{i} - Y_{i}) \log (\frac{1}{1 - {\hat{p}}_{i}})]

$D_i = \sum_{j=1}^{N_i} D_{ij} = 2\left[Y_i \log \left( \frac{1}{\hat{p}_i} \right) + (N_i-Y_i) \log \left( \frac{1}{1-\hat{p}_i} \right)\right]$

Fakt, że AIC jest inny (ale zmiana odchylenia nie jest), wraca do stałego terminu, który był różnicą między prawdopodobieństwami logarytmicznymi obu modeli. Przy obliczaniu odchylenia jest ono anulowane, ponieważ jest takie samo we wszystkich modelach opartych na tych samych danych. AIC jest zdefiniowane jako a ten kombinatoryczny termin jest różnicą między s:

A I C = 2 K - 2 ℓ

$AIC = 2K - 2\ell$

ℓ

$\ell$

A I C_{B e r n o u l l i} - A I C_{B i n o m i a l} = 2 \sum_{i = 1}^{n} \log (\binom{N_{i}}{Y_{i}}) = 9.575

$AIC_{\mathrm{Bernoulli}} - AIC_{\mathrm{Binomial}} = 2\sum_{i=1}^n \log {N_i \choose Y_i} = 9.575$

— znak
źródło

Dziękuję za bardzo szczegółową odpowiedź, Mark! Przepraszam za opóźnienie w mojej odpowiedzi - byłem na wakacjach. 3) Biorąc pod uwagę, że 2 modele dają różne wyniki dla odchyleń odchyleń i AIC, który z nich jest poprawny czy lepszy? a) Jak rozumiem, obserwacje z odchyleniem resztkowym przekraczającym dwa mogą wskazywać na brak dopasowania, więc wartości bezwzględne reszt odchylenia mają znaczenie. b) Ponieważ AIC służy do porównywania dopasowania między różnymi modelami, być może nie ma „poprawnego” AIC. Chciałbym po prostu porównać AIC z 2 modelami dwumianowymi lub 2 modelami Bernoulli.

— Naukowiec

a) W przypadku danych binarnych będzie wynosić> 2, jeśli albo ( i ) lub ( i ). Więc nawet jeśli twój model idealnie pasuje do danych dwumianowych dla tego wektora współzmiennego (tj. , powiedzmy), to s, które arbitralnie przypisałeś jako 1 będzie miał . Z tego powodu uważam, że reszty odchylenia mają większy sens w przypadku danych dwumianowych. Co więcej, samo odchylenie dla danych binarnych nie ma swoich zwykłych właściwości ...

D_{i j}

$D_{ij}$

Z_{i j} = 1

$Z_{ij} = 1$

{\hat{p}}_{i} < e^{- 1} = 0.368

$\hat{p}_i < e^{-1} = 0.368$

Z_{i j} = 0

$Z_{ij} = 0$

{\hat{p}}_{i} > 1 - e^{- 1} = 0.632

$\hat{p}_i > 1 - e^{-1} = 0.632$

i

$i$

Y_{i} / N_{i} = {\hat{p}}_{i} < 0.368

$Y_i / N_i = \hat{p}_i < 0.368$

Y_{i}

$Y_i$

Z_{i j}

$Z_{ij}$

D_{i j} > 2

$D_{ij} > 2$

— Mark

... Link do dalszych informacji o tym ostatnim oświadczeniu

— Mark

b) Tak, porównanie między modelami ma sens tylko wtedy, gdy dane użyte do dopasowania każdego modelu są dokładnie takie same. Porównaj więc Bernoulliego z Bernoullim lub dwumianowy z dwumianowym.

A I C

$AIC$

— Mark

Dzięki, Mark! Twoje przemyślane i szczegółowe odpowiedzi są mile widziane!

— Naukowiec

Chcę tylko skomentować ostatni akapit: „Fakt, że AIC jest inny (ale zmiana odchylenia nie jest), wraca do stałego terminu, który był różnicą między prawdopodobieństwami logarytmicznymi obu modeli. Przy obliczaniu zmiany odchylenia jest to anulowane, ponieważ jest takie samo we wszystkich modelach opartych na tych samych danych. ”Niestety, nie jest to poprawne dla zmiany odchylenia. Odchylenie nie obejmuje stałego terminu Ex (dodatkowa stała termin w log-prawdopodobieństwie dla danych dwumianowych). Dlatego zmiana dewiacji nie ma nic wspólnego ze stałym terminem EX. dewiacja porównuje dany model z pełnym modelem. Fakt, że odchylenia różnią się od Bernoulliego / binarnego i modelowanie dwumianowe, ale zmiana odchylenia nie jest spowodowana różnicą w pełnych wartościach logarytmu wiarygodności modelu. Wartości te są anulowane przy obliczaniu zmian odchyleń. Dlatego modele Bernoulliego i dwumianowej logistycznej regresji dają identyczne zmiany odchylenia, pod warunkiem, że przewidywane prawdopodobieństwa pij i pi są takie same. W rzeczywistości dotyczy to funkcji probit i innych funkcji łącza.

Niech lBm i lBf oznaczają wartości prawdopodobieństwa logarytmu z dopasowania modelu m i pełnego modelu f do danych Bernoulliego. Odchylenie jest wtedy

    DB=2(lBf - lBm)=-2(lBm – lBf).

Chociaż wartość lBf wynosi zero dla danych binarnych, nie uprościliśmy bazy danych i nie zachowaliśmy jej w niezmienionej postaci. Odchylenie od dwumianowego modelowania z tymi samymi zmiennymi towarzyszącymi jest

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

gdzie lbf + Ex i lbm + Ex są wartościami logarytmu prawdopodobieństwa dla modeli pełnego im dopasowanych do danych dwumianowych. Dodatkowy stały składnik (Ex) zniknął z prawej strony Db. Spójrzmy teraz na zmianę odchyleń od Modelu 1 na Model 2. Od modelowania Bernoulli mamy zmiany w odchyleniu

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

Podobnie zmiana odchylenia od dopasowania dwumianowego jest

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

Natychmiast wynika, że zmiany dewiacji są wolne od wkładu prawdopodobieństwa logarytmicznego z pełnych modeli, IBF i IBF. Dlatego otrzymamy tę samą zmianę dewiacji, DBC = DbC, jeśli lBm1 = lbm1 i lBm2 = lbm2. Wiemy, że tak jest w tym przypadku i dlatego otrzymujemy te same zmiany odchyleń od Bernoulliego i modelowania dwumianowego. Różnica między lbf i lbf prowadzi do różnych odchyleń.

— Saei
źródło

Czy edytowanie formatowania odpowiedzi byłoby możliwe? Niestety w tej formie nie jest zbyt czytelny. Zachęcam do zatrzymania tekstu w akapitach i dodania formatowania do formuł. Nie zawsze jest również jasne, co oznaczają używane skróty.

T E X

$\TeX$

— Tim

Wielkie dzięki, Tim. Nie znam formatowania TEX-a. Pierwotnie wpisałem Słowo, ale nie mogłem skopiować i wkleić. Oddzieliłem równania od tekstu.

— Saei,

Nie jestem pewien, czy źle odczytałeś ten akapit: Powiedziałem „AIC jest inny ( ale zmiana odchylenia nie jest )”, a pozostała część akapitu wyjaśnia, dlaczego AIC jest inny dla obu modeli. Nie twierdziłem, że zmiana dewiacji zależała od stałego terminu. W rzeczywistości powiedziałem: „ Obliczając zmianę dewiacji, ten [stały termin] zostaje anulowany, ponieważ jest taki sam we wszystkich modelach opartych na tych samych danych ”

— Mark

Problem polega na tym, że w tekście jest tylko jeden „stały składnik” i jest to termin kombinatoryczny (współczynnik dwumianowy). Kiedy powiesz, że „to” jest anulowane, oznacza to, że stały termin jest uwzględniony w zboczeniu. Różnica między odchyleniami od modeli Bernoulliego a modelami dwumianowymi polega na wpływie wartości logarytmu wiarygodności lbf z pełnego modelu. Wartość lbf nie różni się w zależności od różnych modeli dwumianowych dla tych samych danych i jest anulowana przy obliczaniu zmiany odchylenia.

— Saei,

Ach ok rozumiem o co ci chodzi. Odpowiednio zredagowałem swoją odpowiedź, pozostawiając odniesienie do zmiany dewiacji, ponieważ pytający specjalnie o tym wspomniał. Zmiana dewiacji jest taka sama, ponieważ dewiacja nie zależy od stałego terminu.

— Mark