Aby lepiej zadać moje pytanie, podałem poniżej niektóre wyniki zarówno modelu zmiennego 16 ( fit
), jak i modelu zmiennego 17 ( fit2
) (wszystkie zmienne predykcyjne w tych modelach są ciągłe, a jedyną różnicą między tymi modelami jest to, że fit
nie zawierają zmienną 17 (var17)):
fit Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703
0 69833 d.f. 17 g 1.150 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
fit2 Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13639.70 R2 0.174 C 0.703
0 69833 d.f. 18 g 1.154 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.170 gamma 0.412
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
Użyłem rms
pakietu Franka Harrella do zbudowania tych lrm
modeli. Jak widać, modele te nie wydają się znacznie różnić, jeśli w ogóle, między indeksami dyskryminacji i rankingiem dyskryminacji. Indeksy ; jednak przy użyciu lrtest(fit,fit2)
otrzymałem następujące wyniki:
L.R. Chisq d.f. P
3.685374e+01 1.000000e+00 1.273315e-09
Jako takie odrzucilibyśmy hipotezę zerową tego testu stosunku prawdopodobieństwa; Zakładam jednak, że jest to prawdopodobnie spowodowane dużą wielkością próby ( n = 102849), ponieważ modele te wydają się działać w podobny sposób. Ponadto jestem zainteresowany znalezieniem lepszego sposobu formalnego porównania zagnieżdżonych binarnych modeli regresji logistycznej, gdy n jest duże.
Bardzo doceniam wszelkie opinie, skrypty R lub dokumentację, które mogą poprowadzić mnie we właściwym kierunku, jeśli chodzi o porównanie tego typu modeli zagnieżdżonych! Dzięki!
fit2
jest to model 17 zmiennych, ale jest to również model pomijany V17
. Możesz to zmienić.
fit2
na fit
w powyższym przykładzie zgodnie z twoją poprawką. Dzięki!