Przeprowadziłem wielowymiarową regresję logistyczną ze zmienną zależną Y
będącą śmiercią w domu opieki w pewnym okresie wejścia i otrzymałem następujące wyniki (zwróć uwagę, że zmienne zaczynają się w A
nim, to ciągła wartość, podczas gdy te rozpoczynające się B
są kategoryczne):
Call:
glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0728 -0.2167 -0.1588 -0.1193 3.7788
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 20.048631 6.036637 3.321 0.000896 ***
A1 0.051167 0.016942 3.020 0.002527 **
B2 -0.664940 0.304299 -2.185 0.028878 *
B3 -2.825281 0.633072 -4.463 8.09e-06 ***
B4 -2.547931 0.957784 -2.660 0.007809 **
B5 -2.862460 1.385118 -2.067 0.038774 *
A6 -0.129808 0.041286 -3.144 0.001666 **
A7 0.020016 0.009456 2.117 0.034276 *
A8 -0.707924 0.253396 -2.794 0.005210 **
A9 0.003453 0.001549 2.229 0.025837 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 485.10 on 2206 degrees of freedom
Residual deviance: 417.28 on 2197 degrees of freedom
AIC: 437.28
Number of Fisher Scoring iterations: 7
(Intercept) A1 B2 B3 B4 B5 A6 A7 A8 A9
5.093426e+08 1.052499e+00 5.143045e-01 5.929197e-02 7.824340e-02 5.712806e-02 8.782641e-01 1.020218e+00 4.926657e-01 1.003459e+00
2.5 % 97.5 %
(Intercept) 3.703525e+03 7.004944e+13
A1 1.018123e+00 1.088035e+00
B2 2.832698e-01 9.337710e-01
B3 1.714448e-02 2.050537e-01
B4 1.197238e-02 5.113460e-01
B5 3.782990e-03 8.627079e-01
A6 8.099945e-01 9.522876e-01
A7 1.001484e+00 1.039302e+00
A8 2.998207e-01 8.095488e-01
A9 1.000416e+00 1.006510e+00
Jak widać, wszystkie zmienne są „znaczące”, ponieważ ich wartości p są poniżej zwykłego progu 0,05. Jednak patrząc na współczynniki, nie jestem całkiem pewien, co sądzić o tych wynikach. Wydaje się, że chociaż zmienne te przyczyniają się do modelu, patrząc na iloraz szans, nie wydają się mieć tak naprawdę dużej mocy predykcyjnej. Warto zauważyć, że kiedy obliczyłem AUC, otrzymałem około 0,8.
Czy mogę powiedzieć, że ten model lepiej przewiduje przewidywanie śmiertelności (np. Przewidywanie, że seniorzy przeżyją wyznaczony okres) niż przewidywanie śmiertelności?