Istnieje kilka właściwych i ściśle właściwych reguł punktacji dla danych zliczania, których możesz użyć. Reguły punktacji to kary wprowadzone, przy czym jest rozkładem predykcyjnym, wartością obserwowaną. Mają wiele pożądanych właściwości, przede wszystkim dlatego, że prognoza bliższa rzeczywistemu prawdopodobieństwu zawsze będzie podlegać mniejszej karze, a istnieje (unikalna) najlepsza prognoza, i taka jest, gdy przewidywane prawdopodobieństwo pokrywa się z prawdziwym prawdopodobieństwem. Zatem minimalizacja oczekiwań oznacza zgłoszenie prawdziwych prawdopodobieństw. Zobacz także Wikipedię .P y s ( y , P )s ( y, P)P.ys ( y, P)
Często przyjmuje się średnią z tych wszystkich przewidywanych wartości jako
S.= 1n∑ni = 1s ( y( i ), P( i ))
Która reguła zależy od twojego celu, ale dam ci szorstką charakterystykę, kiedy każda z nich będzie dobra do użycia.
W dalszej części wykorzystuję dla funkcji predykcyjnej masy prawdopodobieństwa oraz funkcji predykcyjnego rozkładu skumulowanego. A działa na całej obsłudze rozkładu zliczania (tj. ). myśli funkcję wskaźnika. i są średnią i odchyleniem standardowym rozkładu predykcyjnego (które są zwykle bezpośrednio oszacowanymi wielkościami w modelach danych zliczeniowych). Pr ( Y = y ) F ( y ) ∑ k 0 , 1 , … , ∞ I μ σfa( y)Pr ( Y= y)fa( y)∑k0 , 1 , … , ∞jaμσ
Ściśle właściwe reguły punktacji
- Wynik Briera : (stabilny dla nierównowagi wielkości w predyktorach )s (y,P) = - 2 f(y) + ∑kfa2)( k )
- Wynik Dawida-Sebastianiego : (dobre dla ogólnego wyboru modelu predykcyjnego; stabilne dla nierównowagi wielkości w predyktorach jakościowych)s ( y, P) = ( y- μσ)2)+ 2 logσ
- Wynik dewiacji : ( jest terminem normalizacyjnym, który zależy tylko od , w modelach Poissona jest zwykle przyjmowany jako dewiacja nasycona; dobry do użycia z szacunkami z ramy ML)g y ys ( y, P) = - 2 logfa( y) + gysolyy
- Wynik logarytmiczny : (bardzo łatwo obliczalny; stabilny dla nierównowagi wielkości w predyktorach jakościowych)s ( y, P) = - logfa( y)
- prawdopodobieństwa : (dobry do kontrastowania różnych prognoz bardzo wysokich liczb; podatny na nierównowagę wielkości w predyktorach jakościowych)s ( y, P) = ∑k{ F.( k ) - I( y≤ k ) }2)
- Wynik sferyczny : (stabilny dla nierównowagi wielkości w predyktorach jakościowych)s ( y, P) = f( y)∑kfa2)( k )√
Inne reguły punktacji (niezbyt właściwe, ale często stosowane)
- Wynik błędu bezwzględnego :(niewłaściwy)s ( y, P) = | y- μ |
- Kwadratowy wynik błędu : (nie jest ściśle właściwy; podatny na wartości odstające; podatny na nierównowagę wielkości w predyktorach jakościowych)s ( y, P) = ( y- μ )2)
- Wynik znormalizowanego błędu kwadratu Pearsona : (nie do końca właściwe; podatne na wartości odstające; można użyć do sprawdzenia, czy model sprawdza, czy wynik uśredniony jest bardzo różny od 1; stabilny dla nierównowagi wielkości w predyktorach jakościowych)s ( y, P) = ( y- μσ)2)
Przykładowy kod R dla ściśle właściwych reguł:
library(vcdExtra)
m1 <- glm(Freq ~ mental, family=poisson, data=Mental)
# scores for the first observation
mu <- predict(m1, type="response")[1]
x <- Mental$Freq[1]
# logarithmic (equivalent to deviance score up to a constant)
-log(dpois(x, lambda=mu))
# quadratic (brier)
-2*dpois(x,lambda=mu) + sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) })
# spherical
- dpois(x,mu) / sqrt(sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) }))
# ranked probability score
sum(ppois((-1):(x-1), mu)^2) + sum((ppois(x:10000,mu)-1)^2)
# Dawid Sebastiani
(x-mu)^2/mu + log(mu)