Jeśli naprawdę miałeś na myśli prawdopodobieństwo dziennika , odpowiedź brzmi: nie zawsze jest to zero.
Weźmy na przykład dane Poissona: . Prawdopodobieństwo dziennika dla jest określone przez:
Y = ( y 1 , … , y n ) ℓ ( μ ; Y ) = - n ∑ i = 1 μ i + n ∑ i = 1 y i log μ i - n ∑ i = 1 logyi∼Poisson(μi),i=1,…,nY=(y1,…,yn)
ℓ(μ;Y)=−∑i=1nμi+∑i=1nyilogμi−∑i=1nlog(yi!).(∗)
Zróżnicuj w względem i ustaw na (w ten sposób otrzymujemy MLE dla modelu nasyconego):
rozwiązać ten problem za uzyskać zastępując powrotem do dla daje że Log-Likelihood nasyconego modelu to:
chyba że weźmiesz specjalnego wartości.( ∗ ) μ i 0 - 1 + y iℓ(μ;Y)(∗)μi0μi μ I=Yi μ I(*)μiℓ
−1+yiμi=0.
μiμ^i=yiμ^i(∗)μiy iℓ(μ^;Y)=∑i=1nyi(logyi−1)−∑i=1nlog(yi!)≠0
yi
Na stronie pomocy R
funkcji glm
pod pozycją deviance
dokument wyjaśnia ten problem w następujący sposób:
deviance
do stałej, minus dwukrotność maksymalnego prawdopodobieństwa logarytmu. Tam, gdzie jest to uzasadnione, wybrana jest stała, aby model nasycony miał zero odchyleń.
Zauważ, że wspomniano, że odchylenie zamiast logarytmu prawdopodobieństwa modelu nasyconego jest wybrane na zero.
Prawdopodobnie tak naprawdę chciałeś potwierdzić, że „ odchylenie nasyconego modelu jest zawsze podawane jako zero”, co jest prawdą, ponieważ odchylenie jest z definicji (patrz rozdział 4.5.1 analizy jakościowej danych (wydanie 2) Alana Agresti) to statystyka stosunku prawdopodobieństwa określonego GLM do modelu nasyconego. Wyżej constant
wspomniane w dokumentacji R jest w rzeczywistości dwukrotnością maksymalnego logarytmu prawdopodobieństwa modelu nasyconego.
Jeśli chodzi o stwierdzenie „Jednak sposób, w jaki podano formułę dewiacji, sugeruje, że czasami ta liczba nie jest równa zero”, prawdopodobnie wynika to z nadużycia użycia terminu dewiacja . Na przykład, w R, statystyczny współczynnik prawdopodobieństwa porównywania dwóch dowolnych (zagnieżdżone) Modele i jest również określana jako odchyleniu, co będzie bardziej dokładnie określanej jako z różnicy pomiędzy odchyleniu od i odchyleniu od , jeżeli ściśle przestrzegał definicji podanej w książce Agresti.M 2 M 1 M 2M1M2M1M2
Wniosek
Prawdopodobieństwo logiczne nasyconego modelu jest zasadniczo niezerowe.
Odchylenie (w oryginalnej definicji) modelu nasyconego wynosi zero.
Odchyleniem wyjściowy oprogramowanie (takie jak R) jest na ogół tak niezerowych w rzeczywistości oznacza co innego (różnica pomiędzy odchyleń).
Poniżej przedstawiono pochodną dla ogólnego przypadku rodziny wykładniczej i inny konkretny przykład. Załóżmy, że dane pochodzą z rodziny wykładniczej (patrz Modern Applied Statistics with S , Rozdział ):
gdzie są znanymi wcześniejszymi wagami, a to parametr dyspersji / skali (w wielu przypadkach, takich jak dwumianowy i Poisson, ten parametr jest znany, podczas gdy w innych przypadkach, takich jak normalny i Gamma, ten parametr jest nieznany). Następnie prawdopodobieństwo logarytmu podaje:
f (7
f(yi;θi,φ)=exp[Ai(yiθi−γ(θi))/φ+τ(yi,φ/Ai)].(1)
Aiφℓ(θ,φ;Y)=∑i=1nAi(yiθi−γ(θi))/φ+∑i=1nτ(yi,φ/Ai).
Tak jak w przykładzie Poissona, parametry modelu nasyconego można oszacować, rozwiązując następującą funkcję
punktacji :
0=U(θi)=∂ℓ(θ,φ;Y)∂θi=Ai(yi−γ′(θi))φ
Oznacz rozwiązanie powyższego równania wzorem , wtedy ogólna postać logarytmu prawdopodobieństwa modelu nasyconego (traktuj parametr skali jako stałą) to:
ℓ( θθ^i
ℓ(θ^,φ;Y)=∑i=1nAi(yiθ^i−γ(θ^i))/φ+∑i=1nτ(yi,φ/Ai).(∗∗)
W mojej poprzedniej odpowiedzi błędnie stwierdziłem, że pierwszy termin po prawej stronie jest zawsze równy zero, powyższy przykład danych Poissona dowodzi, że jest on błędny. Aby uzyskać bardziej skomplikowany przykład, rozważ rozkład gamma podany w dodatku.(∗∗)Γ(α,β)
Dowód pierwszego terminu w logarytmicznym prawdopodobieństwie nasycenia modelu gamma jest niezerowy : Biorąc pod uwagę
musimy najpierw przeprowadzić ponowną parametryzację, aby miało wykładniczą postać rodziny . Można to zweryfikować, jeśli pozwalając
wówczas ma reprezentację:
gdzie
f(y;α,β)=βαΓ(α)e−βyyα−1,y>0,α>0,β>0,
f(1)φ=1α,θ=−βα,
ff(y;θ,φ)=exp[θy−(−log(−θ))φ+τ(y,φ)],
τ(y,φ)=−logφφ+(1φ−1)logy−logΓ(φ−1).
Dlatego MLE modelu nasyconego to . Stąd
chyba że przyjmą bardzo specjalne wartości.
θ^i=−1yi∑i=1n1φ[θ^iyi−(−log(−θ^i))]=∑i=1n1φ[−1−log(yi)]≠0,
yi