Metody dopasowywania rozkładów dyskretnych
Istnieją trzy główne metody * stosowane w celu dopasowania (oszacowania parametrów) rozkładów dyskretnych.
Znajduje wartości parametrów, które dają najlepszą szansę na dostarczenie próbki (biorąc pod uwagę inne założenia, takie jak niezależność, stałe parametry itp.)
Znajduje wartości parametrów, które sprawiają, że kilka pierwszych momentów zapełniania pasuje do momentów próbnych. Często jest to dość łatwe, aw wielu przypadkach daje dość rozsądne estymatory. Czasami jest również używany do dostarczania wartości początkowych do procedur ML.
Minimalizuje to dobro statystyki dopasowania chi-kwadrat w porównaniu z rozkładem dyskretnym, chociaż czasami przy większych zestawach danych kategorie końcowe mogą być łączone dla wygody. Często działa dość dobrze, a nawet prawdopodobnie ma pewne zalety w stosunku do ML w określonych sytuacjach, ale generalnie należy iterować do zbieżności, w którym to przypadku większość ludzi woli ML.
Dwie pierwsze metody są również stosowane do ciągłych dystrybucji; trzeci nie jest zwykle używany w takim przypadku.
Nie są to w żadnym wypadku wyczerpująca lista, a oszacowanie parametrów byłoby możliwe na przykład poprzez zminimalizowanie statystyki KS - a nawet (jeśli uwzględnisz dyskrecję), aby uzyskać z niej wspólny region współbrzmienia , gdybyś był bardzo skłonny. Ponieważ pracujesz w R, oszacowanie ML jest dość łatwe do osiągnięcia dla ujemnego dwumianu. Jeśli twoja próbka była w x
, jest to tak proste, jak library(MASS);fitdistr (x,"negative binomial")
:
> library(MASS)
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
size mu
3.6200839 6.3701156
(0.8033929) (0.4192836)
Są to oszacowania parametrów i ich (asymptotyczne) błędy standardowe.
W przypadku rozkładu Poissona zarówno MLE, jak i MoM szacują parametr Poissona na średniej próbki.
Jeśli chcesz zobaczyć przykłady, powinieneś opublikować kilka faktycznych danych. Zwróć uwagę, że histogram został wykonany z wybranymi pojemnikami, dzięki czemu kategorie 0 i 1 zostały połączone, a my nie mamy surowej liczby.
Tak blisko, jak mogę się domyślić, twoje dane są z grubsza następujące:
Count: 0&1 2 3 4 5 6 >6
Frequency: 311 197 74 15 3 1 0
Ale duże liczby będą niepewne (zależy to w dużej mierze od tego, jak dokładnie niskie liczby są reprezentowane przez liczbę pikseli ich wysokości słupków) i może to być pewna wielokrotność tych liczb, jak dwukrotność tych liczb (liczby surowe wpływają na standardowe błędy, więc ważne jest, czy dotyczą one tych wartości, czy dwa razy większych)
Połączenie pierwszych dwóch grup sprawia, że jest to trochę niewygodne (jest to możliwe, ale mniej proste, jeśli połączysz niektóre kategorie. W tych pierwszych dwóch grupach jest dużo informacji, więc lepiej nie pozwolić, aby domyślny histogram je zbił ).
* Oczywiście możliwe są inne metody dopasowania rozkładów dyskretnych (można dopasować kwantyle lub zminimalizować na przykład inne statystyki dopasowania). Te, o których wspominam, wydają się najczęstsze.