Mam zestaw danych zawierający liczbę działań wykonanych przez osoby w ciągu 7 dni. Konkretne działanie nie powinno być istotne dla tego pytania. Oto kilka statystyk opisowych dla zestawu danych:
Oto histogram danych:
Sądząc ze źródła danych, pomyślałem, że pasuje do rozkładu Poissona. Jednak średnia wariancja, i histogram są mocno obciążone w lewo. Dodatkowo przeprowadziłem goodfit
test w R i otrzymałem:
> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2 df P(> X^2) <br>
Pearson 2.937599e+248 771 0
Metoda maksymalnego prawdopodobieństwa również dała wartość p = 0. Zakładając, że hipoteza zerowa jest taka: dane pasują do rozkładu Poissona (dokumentacja tego nie precyzuje), a następnie goodfit
test mówi, że powinniśmy odrzucić hipotezę zerową, dlatego dane nie dopasuj rozkład Poissona.
Czy ta analiza jest poprawna? Jeśli tak, to jaki według Ciebie rozkład będzie pasował do tych danych?
Moim ostatecznym celem jest porównanie średniej liczby działań między 2 próbkami, aby sprawdzić, czy średnie są różne; czy sprawdzanie dystrybucji jest nawet konieczne? Rozumiem, że typowe testy (testy z-, t-, ) nie działają dla rozkładów Poissona. Jakiego testu należy użyć, jeśli dane są rzeczywiście dystrybuowane przez Poissona?