Obserwowane zachowanie jest „typowym” przypadkiem regresji logistycznej, ale nie zawsze jest prawdą. Ma również znacznie większą ogólność (patrz poniżej). Jest to konsekwencja zbiegu trzech odrębnych faktów.
- Wybór modelowania logarytmii jako funkcji liniowej predyktorów,
- Wykorzystanie maksymalnego prawdopodobieństwa do uzyskania oszacowań współczynników w modelu regresji logistycznej oraz
- Włączenie terminu przechwytującego do modelu.
Jeśli którekolwiek z powyższych nie występuje, wówczas średnie oszacowane prawdopodobieństwa nie będą na ogół odpowiadały odsetkowi prawdopodobieństw w próbie.
Jednak (prawie) wszyscy oprogramowanie statystyczne wykorzystuje oszacowanie maksymalnego prawdopodobieństwa dla takich modeli, więc w praktyce pozycje 1 i 2 są zasadniczo zawsze obecne, a pozycja 3 jest zwykle obecna, z wyjątkiem szczególnych przypadków.
Trochę szczegółów
W typowych ramach regresji logistycznej obserwujemy wyniki niezależnych prób dwumianowych z prawdopodobieństwem . Niech Y i być obserwowane reakcje. Następnie całkowite prawdopodobieństwo,
L = n Π i = 1 p r ı I ( 1 - p ı ) 1 - Y i = n Π i = 1 exp ( y i log ( p ı / ( 1 - p Ipjayja
A więc Log-Likelihood jest
ℓ = n Σ i = 1 Y i log ( s I / ( 1 - P i ) ) + n Σ i = 1 log ( 1 - P I )
L = ∏i = 1npyjaja( 1 - pja)1 - yja= ∏i = 1nexp( yjalog( pja/ ( 1 - pja) ) + log( 1 - pja) ),
ℓ = ∑i = 1nyjalog( pja/ ( 1 - pja) ) + ∑ja= 1nlog( 1 - pja).
Teraz mamy wektor predyktorów dla każdej obserwacji, a z faktu 1 powyżej model regresji logistycznej zakłada, że
log p ixja
logpja1 - pja= βT.xja,
βpja= 1 / ( 1 + e- βT.xja)
∂ℓ / ∂β= 0
∂ℓ∂β= ∑jayjaxja- ∑jaxja1 + exp( - βT.xja)= ∑jayjaxja- ∑japjaxja,
∑jayjaxja= ∑jap^jaxja,
ponieważ MLE są niezmienne w trakcie transformacji, stąd
p^ja= ( 1 + exp( - β^T.xja) )- 1 w tym przypadku.
Korzystając z faktu 3, jeśli xja ma składnik jot to zawsze 1 na każdy ja, następnie ∑jayjaxI j= ∑jayja= ∑jap^ja i dlatego empiryczna proporcja pozytywnych odpowiedzi odpowiada średniej dopasowanych prawdopodobieństw.
Symulacja
Włączenie przechwytywania jest ważne. Oto przykład wR w celu wykazania, że obserwowane zachowanie może nie wystąpić, gdy w modelu nie ma żadnego przechwytywania.
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
Przypadek ogólny : jak wspomniano powyżej, właściwość, że średnia odpowiedź jest równa średniej przewidywanej średniej, ma znacznie większą ogólność dla klasy uogólnionych modeli liniowych pasujących z najwyższym prawdopodobieństwem, przy użyciu funkcji łącza kanonicznego i uwzględnienia przecięcia w Model.
Bibliografia
Niektóre dobre odniesienia do powiązanej teorii są następujące.
- A. Agresti (2002), Categorical Data Analysis , wyd. 2, Wiley.
- P. McCullagh i JA Nelder (1989), Uogólnione modele liniowe , wyd. 2, Chapman i Hall. (Tekst oryginalnych autorów metod ogólnych).