Czy należy stosować korekcje stopni swobody do wnioskowania na temat parametrów GLM?

To pytanie jest inspirowane odpowiedzią Martijna tutaj .

Załóżmy, że dopasowujemy GLM do rodziny jednoparametrowej, takiej jak model dwumianowy lub Poissona, i że jest to procedura pełnego prawdopodobieństwa (w przeciwieństwie do quasipoissonu). Zatem wariancja jest funkcją średniej. Z dwumianowym: oraz z Poisson . $\text{var}[X] = E[X]E[1-X]$ $\text{var}[X] = E[X]$

W przeciwieństwie do regresji liniowej, gdy reszty są normalnie rozmieszczone, skończony, dokładny rozkład próbkowania tych współczynników nie jest znany, jest to prawdopodobnie skomplikowana kombinacja wyników i zmiennych towarzyszących. Ponadto, używając oszacowania średniej GLM , które można wykorzystać jako oszacowanie wtyczki dla wariancji wyniku.

Jednak podobnie jak regresja liniowa współczynniki mają asymptotyczny rozkład normalny, a zatem w skończonym wnioskowaniu na podstawie próby możemy przybliżać ich rozkład próbkowania za pomocą krzywej normalnej.

Moje pytanie brzmi: czy uzyskujemy cokolwiek, stosując aproksymację rozkładu T do rozkładu próbkowania współczynników w próbkach skończonych? Z jednej strony znamy wariancję, ale nie znamy dokładnego rozkładu, więc przybliżenie T wydaje się złym wyborem, gdy estymator bootstrap lub jackknife mógłby właściwie uwzględnić te rozbieżności. Z drugiej strony być może niewielki konserwatyzm rozkładu T jest po prostu preferowany w praktyce.

— AdamO
źródło

dobre pytanie. Możesz przyjrzeć się poprawkom Bartletta .

— Ben Bolker

Myślę, że to pytanie jest źle postawione, gdy używasz MLE lub QMLE, masz tylko asymptotycznie uzasadnione oszacowanie i wnioskowanie. pytanie, czy założenie A lub B jest lepsze w ustawieniach skończonych, nie da się odpowiedzieć, zawsze będzie sprowadzało się do przyziemności „zależy od danych i założeń, które jesteś skłonny przyjąć”. Osobiście lubię bootstrapowanie i używam go, kiedy tylko mogę, ale nie jest więcej błędem niż stosowanie standardowego testu opartego na z lub t - nie pozwala ci to uniknąć problemu z małymi danymi, a więc nadal przyjmujesz założenia (tylko inne) )

— Repmat

Krótka odpowiedź: jeszcze nie pełna, ale możesz zainteresować się następującymi dystrybucjami związanymi z połączonym pytaniem: porównuje test Z (używany również przez GLM) i test T

    layout(matrix(1:2,1,byrow=TRUE))

    # trying all 100 possible outcomes if the true value is p=0.7
    px <- dbinom(0:100,100,0.7)
    p_model = rep(0,101)
    p_model2 = rep(0,101)
    for (i in 0:100) {
      xi = c(rep(1,i),rep(0,100-i))
      model = glm(xi ~ 1, offset=rep(qlogis(0.7),100), family="binomial")
      p_model[i+1] = 1-summary(model)$coefficients[4]
      model2 <- glm(xi ~ 1, family = "binomial")
      coef <- summary(model2)$coefficients
      p_model2[i+1] = 1-2*pt(-abs((qlogis(0.7)-coef[1])/coef[2]),99,ncp=0)
    }


    # plotting cumulative distribution of outcomes z-test
    outcomes <- p_model[order(p_model)]
    cdf <- cumsum(px[order(p_model)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
    #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with z-test \n as function of set alpha level")


    # plotting cumulative distribution of outcomes t-test
    outcomes <- p_model2[order(p_model2)]
    cdf <- cumsum(px[order(p_model2)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
      #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with t-test \n as function of set alpha level")
    [![p-test vs t-test][1]][1]

I jest tylko niewielka różnica. A także test Z jest w rzeczywistości lepszy (ale może to być spowodowane tym, że zarówno test T, jak i test Z są „złe” i być może błąd testu Z kompensuje ten błąd).

Długa odpowiedź: ...

— Sextus Empiricus
źródło