Odpowiedzi:
Niech LL = loglikelihood
Oto krótkie podsumowanie danych wyjściowych podsumowania (glm.fit),
Null Deviance = 2 (LL (model nasycony) - LL (model zerowy)) na df = df_Sat - df_Null
Resztkowe odchylenie = 2 (LL (model nasycony) - LL (proponowany model)) df = df_Sat - df_Proposed
Nasycone model to model, który zakłada, każdy punkt danych ma swoje własne parametry (co oznacza, że masz n parametrów do oszacowania.)
Null model zakłada dokładną „u boku”, w który jest przyjmuje jeden parametr dla wszystkich punktów danych, co oznacza, że tylko 1 oszacować parametr.
Proponowany model zakłada można wyjaśnić swoje punkty danych o parametrach p + w perspektywie przechwytującym, więc trzeba p + 1 parametrów.
Jeśli twoje zerowe odchylenie jest naprawdę małe, oznacza to, że model zerowy dość dobrze wyjaśnia dane. Podobnie z twoim Pozostałym dewiacją .
Co znaczy naprawdę małe? Jeśli twój model jest „dobry”, to Twoje odchylenie wynosi około Chi ^ 2 z (df_sat - df_model) stopniami swobody.
Jeśli chcesz porównać swój model zerowy z proponowanym modelem, możesz na to spojrzeć
(Odchylenie zerowe - odchylenie resztkowe) około Chi ^ 2 z df Proponowane - df Null = (n- (p + 1)) - (n-1) = p
Czy wyniki dałeś bezpośrednio z R? Wydają się nieco dziwne, ponieważ ogólnie powinieneś zauważyć, że stopnie swobody podane na Null są zawsze wyższe niż stopnie swobody podane na Reszcie. Jest tak, ponieważ ponownie, zerowe odchylenie df = nasycone df - zerowe df = n-1 rezydualne odchylenie df = nasycone df - proponowane df = n- (p + 1)
Odchylenie zerowe pokazuje, jak dobrze model przewiduje reakcję bez przechwytywania.
Odchylenie resztkowe pokazuje, jak dobrze model prognozuje odpowiedź, gdy uwzględnione są predyktory. Z twojego przykładu widać, że odchylenie wzrasta o 3433,3, gdy dodaje się 22 zmienne predykcyjne (uwaga: stopnie swobody = liczba obserwacji - liczba predyktorów). Ten wzrost dewiacji świadczy o znacznym braku dopasowania.
Możemy również użyć odchylenia resztkowego, aby sprawdzić, czy hipoteza zerowa jest prawdziwa (tj. Model regresji logistycznej zapewnia odpowiednie dopasowanie do danych). Jest to możliwe, ponieważ dewiacja jest podawana przez wartość chi-kwadrat przy pewnym stopniu swobody. Aby przetestować istotność, możemy znaleźć powiązane wartości p, stosując poniższy wzór w R:
p-value = 1 - pchisq(deviance, degrees of freedom)
Stosując powyższe wartości rezydualnego odchylenia i DF, otrzymujesz wartość p wynoszącą w przybliżeniu zero, wskazującą, że istnieje znaczący brak dowodów na poparcie hipotezy zerowej.
> 1 - pchisq(4589.4, 1099)
[1] 0
GLM
?