Oto ogólny opis działania 3 wymienionych metod.
Metoda Chi-Squared polega na porównaniu liczby obserwacji w zbiorniku z liczbą oczekiwaną w zbiorniku na podstawie rozkładu. W przypadku dystrybucji dyskretnych pojemniki są zwykle dyskretnymi możliwościami lub ich kombinacjami. W przypadku ciągłych rozkładów możesz wybrać punkty cięcia, aby utworzyć pojemniki. Wiele funkcji, które to zaimplementują, automatycznie utworzy przedziały, ale powinieneś być w stanie utworzyć własne przedziały, jeśli chcesz porównać w określonych obszarach. Wadą tej metody jest to, że nie zostaną wykryte różnice między rozkładem teoretycznym a danymi empirycznymi, które nadal umieszczają wartości w tym samym przedziale, przykładem może być zaokrąglanie, jeśli teoretycznie liczby między 2 a 3 powinny być rozłożone w całym zakresie (spodziewamy się zobaczyć wartości takie jak 2.34296),
Statystyka testu KS jest maksymalną odległością między 2 porównywanymi funkcjami rozkładu skumulowanego (często teoretyczną i empiryczną). Jeśli 2 rozkłady prawdopodobieństwa mają tylko 1 punkt przecięcia, wówczas 1 minus maksymalna odległość to obszar nakładania się 2 rozkładów prawdopodobieństwa (pomaga to niektórym ludziom wizualizować, co jest mierzone). Pomyśl o wykreśleniu na tym samym wykresie funkcji rozkładu teoretycznego i EDF, a następnie zmierz odległość między 2 „krzywymi”, największą różnicą jest statystyka testowa i jest ona porównywana z rozkładem wartości dla tego, gdy zerowa jest prawdziwa. To wychwytuje różnice w kształcie rozkładu lub 1 rozkład przesunięty lub rozciągnięty w porównaniu do drugiego.1n
Test Andersona-Darlinga wykorzystuje również różnicę między krzywymi CDF, jak test KS, ale zamiast maksymalnej różnicy wykorzystuje funkcję całkowitego pola powierzchni między dwoma krzywymi (w rzeczywistości różnicuje kwadraty, waży je, więc ogony mają większy wpływ, a następnie integruje się w domenie dystrybucji). Daje to większą wagę wartościom odstającym niż KS, a także daje większą wagę, jeśli istnieje kilka małych różnic (w porównaniu z 1 dużą różnicą, którą KS podkreśliłby). Może to doprowadzić do obezwładnienia testu w celu znalezienia różnic, które uważasz za nieistotne (łagodne zaokrąglanie itp.). Podobnie jak test KS zakłada to, że nie oszacowałeś parametrów na podstawie danych.
Oto wykres pokazujący ogólne idee ostatnich 2:
na podstawie tego kodu R:
set.seed(1)
tmp <- rnorm(25)
edf <- approxfun( sort(tmp), (0:24)/25, method='constant',
yleft=0, yright=1, f=1 )
par(mfrow=c(3,1), mar=c(4,4,0,0)+.1)
curve( edf, from=-3, to=3, n=1000, col='green' )
curve( pnorm, from=-3, to=3, col='blue', add=TRUE)
tmp.x <- seq(-3, 3, length=1000)
ediff <- function(x) pnorm(x) - edf(x)
m.x <- tmp.x[ which.max( abs( ediff(tmp.x) ) ) ]
ediff( m.x ) # KS stat
segments( m.x, edf(m.x), m.x, pnorm(m.x), col='red' ) # KS stat
curve( ediff, from=-3, to=3, n=1000 )
abline(h=0, col='lightgrey')
ediff2 <- function(x) (pnorm(x) - edf(x))^2/( pnorm(x)*(1-pnorm(x)) )*dnorm(x)
curve( ediff2, from=-3, to=3, n=1000 )
abline(h=0)
Górny wykres pokazuje EDF próbki ze standardowej normy w porównaniu do CDF standardowej normy z linią pokazującą statystykę KS. Środkowy wykres pokazuje różnicę na 2 krzywych (możesz zobaczyć, gdzie występuje statystyka KS). Dno jest wtedy kwadratową, ważoną różnicą, test AD opiera się na polu pod tą krzywą (zakładając, że wszystko poprawnie wykonałem).
Inne testy sprawdzają korelację w qqplot, patrzą na nachylenie w qqplot, porównują średnią, var i inne statystyki w oparciu o momenty.