Wyjaśnienie na odnośnej stronie to
Pr(P≤k/nsim)k/nsim
Aby to zrozumieć, musimy przyjrzeć się kodowi, którego kluczowe linie (znacznie skrócone)
fred <- function(x) {ks.test(...)$statistic} # Apply a statistical test to an array
d.hat <- fred(x) # Apply the test to the data
d.star <- apply(matrix(rnorm(n*nsim), n, nsim),
2, fred) # Apply the test to nsim simulated datasets
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)# Estimate a simulation p-value
Istotnym problemem jest to, że kod nie pasuje do cytatu. Jak możemy je pogodzić? Jedna próba rozpoczyna się od ostatniej połowy oferty. Możemy interpretować procedurę jako obejmującą następujące kroki:
Zbierać niezależnie identycznie rozmieszczone danych według pewnego prawa prawdopodobieństwa . Zastosuj procedurę testową (zaimplementowaną w kodzie as ), aby uzyskać liczbę .X1,X2,…,XnGtfred
T0=t(X1,…,Xn)
Generowania przez komputer porównywalnych zbiorów danych, z których każdy o rozmiarze , zgodnie z hipotezą zerową z prawem prawdopodobieństwo . Zastosuj do każdego takiego zestawu danych, aby uzyskać liczb .N=nsimnFtNT1,T2,…,TN
Oblicz
P=(∑i=1NI(Ti>T0)+1)/(N+1).
(„ ” to funkcja wskaźnika realizowana przez porównanie wartości w wektorze w kodzie). Prawa strona jest rozumiana jako losowa z uwagi na równoczesną losowość (rzeczywista statystyka testu) i losowość ( symulowane statystyki testowe). Id.star > d.hat
T0Ti
Powiedzieć, że dane są zgodne z hipotezą zerową jest twierdzić, że . Wybierz rozmiar testowy , . Pomnożenie obu stron przez i odjęcie pokazuje, że szansa, że dla dowolnej liczby jest szansą, że nie więcej niż z przekroczy . Mówi to jedynie, że znajduje się w górnym posortowanego zestawu wszystkich statystyk testowych . Ponieważ (przez budowę)F=Gα0<α<1N+11P≤αα(N+1)α−1TiT0T0(N+1)αN+1T0jest niezależny od wszystkich , gdy jest rozkładem ciągłym, ta szansa będzie ułamkiem całości reprezentowanym przez część całkowitą ; to znaczy, i będzie dokładnie taki sam, pod warunkiem jest liczbą całkowitą ; to znaczy, gdy .TiF⌊(N+1)α⌋
Pr(P≤α)=⌊(N+1)α⌋N+1≈α
(N+1)αkα=k/(N+1)
Z pewnością jest to jedna z rzeczy, które chcemy spełnić w odniesieniu do każdej wielkości, która zasługuje na miano „wartości p”: powinna mieć jednolity rozkład na . Pod warunkiem, że jest dość duży, więc każdy jest zbliżony do pewnej części formy , to będzie zbliżone do munduru dystrybucja. (Aby dowiedzieć się o dodatkowych warunkach wymaganych dla wartości p, przeczytaj okno dialogowe, które zamieściłem na temat wartości p. )[0,1]N+1αk/(N+1)=k/(nsim+1)P
Oczywiście cytat powinien używać „ ” zamiast „ ”, gdziekolwiek się pojawi.nsim+1nsim