Hosmer-Lemeshow vs AIC dla regresji logistycznej

Jeśli Hosmer-Lemeshow wskazuje na brak dopasowania, ale AIC jest najniższy spośród wszystkich modeli ... czy nadal powinieneś używać tego modelu?

Jeśli usunę zmienną, statystyka Hosmera-Lemeshowa nie będzie znacząca (co oznacza, że nie ma rażącego braku dopasowania). Ale AIC wzrasta.

Edycja : Ogólnie myślę, że jeśli AIC różnych modeli są sobie bliskie (tj. ), to są one zasadniczo takie same. Ale AIC są bardzo różne. Wydaje się to wskazywać, że powinienem użyć tego z najniższym AIC, chociaż test Hosmer-Lemeshow wskazuje inaczej. $<2$

A może test HL dotyczy tylko dużych próbek? Ma małą moc dla małych rozmiarów próbek (moja wielkość próbki wynosi ~ 300). Ale jeśli otrzymuję znaczący wynik ... Oznacza to, że nawet przy małej mocy dostaję odrzucenie.

Czy miałoby to znaczenie, gdybym użył AICc kontra AIC? Jak uzyskać AICc w SAS? Wiem, że mogą występować problemy z wielokrotnością. Ale z góry hipotezę, że zmienne mają wpływ na wynik.

Jakieś komentarze?

Edycja2 : Myślę, że powinienem użyć modelu z jedną mniejszą zmienną i wyższym AIC z nieistotnym HL. Powodem jest to, że dwie zmienne są ze sobą skorelowane. Więc pozbycie się jednego ma sens.

regression logistic hosmer-lemeshow-test

— Tomasz
źródło

Weź pod uwagę, że wszystkie twoje modele mogą być śmieciami.

@mbq: Jak to pomaga?

— Thomas

Cóż, nawet w grupie nieistotnych modeli jest jeden z najlepszym AIC. W każdym razie nie używaj odpowiedzi, aby rozszerzyć swoje pytanie.

Test Hosmera-Lemeshowa jest w pewnym stopniu przestarzały, ponieważ wymaga arbitralnego łączenia przewidywanych prawdopodobieństw i nie ma doskonałej mocy do wykrycia braku kalibracji. Nie w pełni karuje również za ekstremalne przeregulowanie modelu. Dostępne są lepsze metody, takie jak Hosmer, DW; Hosmer, T .; le Cessie, S. i Lemeshow, S. Porównanie testów dopasowania pod kątem modelu regresji logistycznej. Statistics in Medicine , 1997, 16 , 965-980. Ich nowy środek został wdrożony w Rrms $R^2$ $c$

— Frank Harrell
źródło

Czy zatem stosowanie testu współczynnika wiarygodności byłoby lepsze do oceny dobroci dopasowania modelu o najniższym AIC? Ponieważ ten test pokazuje, że nie brakuje dopasowania.

— Thomas

Spojrzenie na AIC więcej niż 2 modeli spowoduje pewne odchylenie / przeregulowanie wyboru. AIC nie ocenia wprost dobroci dopasowania, z wyjątkiem kontekstu, który podałem powyżej. Najlepszym sposobem oceny dopasowania jest wykazanie dobrej kalibracji przy użyciu ciągłego gładkiego nieparametrycznego wykresu kalibracji i wykazanie niewielkich dowodów na bardziej złożone komponenty, które mogłyby poprawić model.

— Frank Harrell,

Zakładając, że nie mam dostępu do żadnego z tych narzędzi. Model A, który ma nieistotny test HL, ma również jedną mniej zmienną niż model B, który ma znaczący test HL. Porównuję tylko te dwa modele. Model A ma najniższy AIC, a model B ma znacznie wyższy AIC.

— Thomas

Miałem na myśli, że Model B ma najniższy AIC, a Model A ma znacznie wyższy AIC.

— Thomas

rms

P

$P$