Ocena regresji logistycznej i interpretacja dobroci dopasowania Hosmera-Lemeshowa

24

Jak wszyscy wiemy, istnieją 2 metody oceny modelu regresji logistycznej i testują one bardzo różne rzeczy

Moc predykcyjna:

Uzyskaj statystykę mierzącą, jak dobrze możesz przewidzieć zmienną zależną na podstawie zmiennych niezależnych. Dobrze znanymi Pseudo R ^ 2 są McFadden (1974) oraz Cox i Snell (1989).

Statystyki dobroci dopasowania

Test mówi, czy można zrobić jeszcze lepiej, czyniąc model bardziej skomplikowanym, a tak naprawdę sprawdza, czy występują nieliniowości lub interakcje.

Zaimplementowałem oba testy w moim modelu, który dodał już kwadrat i interakcję
:

>summary(spec_q2)

Call:
glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + 
 I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, 
 family = binomial())

 Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.955431   8.838584   0.108   0.9139    
Top          0.311891   0.189793   1.643   0.1003    
Right       -1.015460   0.502736  -2.020   0.0434 *  
Left        -0.962143   0.431534  -2.230   0.0258 *  
Bottom       0.198631   0.157242   1.263   0.2065    
I(Top^2)    -0.003213   0.002114  -1.520   0.1285    
I(Left^2)   -0.054258   0.008768  -6.188 6.09e-10 ***
I(Bottom^2)  0.003725   0.001782   2.091   0.0366 *  
Top:Right    0.012290   0.007540   1.630   0.1031    
Top:Bottom   0.004536   0.002880   1.575   0.1153    
Right:Left  -0.044283   0.015983  -2.771   0.0056 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 3350.3  on 2799  degrees of freedom
Residual deviance: 1984.6  on 2789  degrees of freedom
AIC: 2006.6

a przewidywana moc jest jak poniżej, MaFadden wynosi 0,4004, a wartość między 0,2 ~ 0,4 należy przyjąć, aby przedstawić bardzo dobre dopasowanie modelu (Louviere i in. (2000), Domenich i McFadden (1975)):

 > PseudoR2(spec_q2)
    McFadden     Adj.McFadden        Cox.Snell       Nagelkerke McKelvey.Zavoina           Effron            Count        Adj.Count 
   0.4076315        0.4004680        0.3859918        0.5531859        0.6144487        0.4616466        0.8489286        0.4712500 
         AIC    Corrected.AIC 
2006.6179010     2006.7125925

oraz statystyki dobroci dopasowania:

 > hoslem.test(result,phat,g=8)

     Hosmer and Lemeshow goodness of fit (GOF) test

  data:  result, phat
  X-squared = 2800, df = 6, p-value < 2.2e-16

W moim rozumieniu GOF faktycznie testuje następującą hipotezę zerową i alternatywną:

  H0: The models does not need interaction and non-linearity
  H1: The models needs interaction and non-linearity

Ponieważ moje modele dodały interakcję, już nieliniowość, a wartość p pokazuje, że H0 należy odrzucić, doszedłem więc do wniosku, że mój model wymaga interakcji, a nieliniowość. Mam nadzieję, że moja interpretacja jest poprawna i dziękuję za wszelkie porady z góry, dziękuję.

— Samoth
źródło

1

patrz także stats.stackexchange.com/questions/169000/… i stats.stackexchange.com/questions/167483/…

2

Lepiej spojrzeć na tabelę niższą niż wartość p dla testu HL. A także na wykresach pozostałości z twojego modelu. To pokaże, gdzie jest problem.

— prawdopodobieństwo prawdopodobieństwo

26

Jest kilka problemów do rozwiązania.

$R^2$ $R^2$ $R^2$
Test Hosmera-Lemeshowa dotyczy ogólnego błędu kalibracji, a nie jakiegokolwiek szczególnego braku dopasowania, takiego jak efekty kwadratowe. Nie uwzględnia we właściwy sposób nadmiernego dopasowania, jest arbitralne w wyborze przedziałów i metody obliczania kwantyli, a często ma zbyt niską moc.
Z tych powodów test Hosmer-Lemeshow nie jest już zalecany. Hosmer i wsp. Przeprowadzili lepszy test dopasowania omnibus jeden df, zaimplementowany w funkcji rmspakietu R.residuals.lrm
W twoim przypadku poprawność dopasowania można ocenić poprzez wspólne testowanie (w teście „fragmentu”) udziału wszystkich kwadratów i warunków interakcji.
Ale zalecam określenie modelu, aby zwiększyć jego zgodność z przodu (szczególnie w odniesieniu do relaksujących założeń liniowości za pomocą splajnów regresji) i użycie bootstrapu do oszacowania przeregulowania i uzyskania poprawionej krzywej kalibracji o wysokiej rozdzielczości z korekcją przeregulowania w celu sprawdzenia wartości bezwzględnej precyzja. Odbywa się to za pomocą rmspakietu R.

W ostatnim punkcie wolę filozofię, że modele są elastyczne (i tak ograniczone przez wielkość próbki) i że bardziej koncentrujemy się na „dopasowaniu” niż na „braku dopasowania”.

— Frank Harrell
źródło

2

R^{2}

$R^2$

1 - R^{2}

$1 - R^{2}$

4

Z Wikipedii :

Test ocenia, czy obserwowane wskaźniki zdarzeń odpowiadają oczekiwanym wskaźnikom zdarzeń w podgrupach populacji modelu. Test Hosmera – Lemeshowa wyraźnie identyfikuje podgrupy jako decyle dopasowanych wartości ryzyka. Modele, dla których oczekiwane i obserwowane wskaźniki zdarzeń w podgrupach są podobne, nazywane są dobrze skalibrowanymi.

Jego znaczenie: po zbudowaniu modelu oceniającego y modelu, chcesz sprawdzić, czy jest on podzielony na 10 decyli podobnych do rzeczywistych wskaźników zdarzeń.

Tak będą hipotezy

$H_0$
$H_1$

Dlatego jeśli wartość p jest mniejsza niż 0,05, nie są one dobrze rozłożone i musisz udoskonalić swój model.

Mam nadzieję, że to odpowiada na niektóre pytania.

— Rajnish Kumar
źródło

3

Jest to raczej dyskusyjne po odpowiedzi @ FrankHarrella, ale fan testu H – L wywnioskowałby z tego wyniku, że pomimo włączenia wyrażeń kwadratowych i niektórych interakcji ^† drugiego rzędu, model nadal wykazywał znaczny brak dopasowania, i że być może odpowiedni byłby nawet bardziej złożony model. Testujesz dopasowanie dokładnie określonego modelu, a nie prostszego modelu pierwszego rzędu.

† To nie jest pełny model drugiego rzędu - są trzy interakcje.

— Scortchi - Przywróć Monikę
źródło