Test Kołmogorowa – Smirnowa: wartość p i statystyki testu ks zmniejszają się wraz ze wzrostem wielkości próby

12

Dlaczego wartości p i statystyki testu ks zmniejszają się wraz ze wzrostem wielkości próby? Weź ten kod Python jako przykład:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

Wyniki są następujące:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

Intuicyjnie rozumiem, że w miarę wzrostu n test jest „bardziej pewny”, że oba rozkłady są różne. Ale jeśli wielkość próbki jest bardzo duża, jaki jest sens testów podobieństwa, takich jak ten i powiedzmy test Andersona Darlinga lub test t, ponieważ w takich przypadkach, gdy n jest bardzo duże, zawsze okaże się, że rozkłady są "znacząco różne!? Teraz zastanawiam się, jaki jest sens wartości p. To zależy tak bardzo od wielkości próbki ... jeśli p> 0,05 i chcesz, aby była niższa, po prostu zdobądź więcej danych; a jeśli p <0,05, a chcesz, aby był wyższy, po prostu usuń niektóre dane.

Ponadto, jeśli dwa rozkłady byłyby identyczne, statystyka testu ks wynosiłaby 0, a wartość p 1. Ale w moim przykładzie, gdy n wzrasta, statystyki testu ks sugerują, że rozkłady stają się coraz bardziej podobne z czasem (maleje) , ale zgodnie z wartością p stają się one coraz bardziej różne w miarę upływu czasu (również maleją).

— Oliver Angelil
źródło

Zobacz Czy testowanie normalności jest „zasadniczo bezużyteczne”? . Zauważ, że to, co mówisz, nie jest do końca prawdą: jeśli rozkłady są w rzeczywistości identyczne, rozkład wartości p pozostaje jednolity, nawet gdy zwiększasz wielkość próbki.

— Scortchi - Przywróć Monikę

2

Miałem problem, który może odnosić się do tego: stats.stackexchange.com/questions/301628/… To mnie bardzo sceptycznie podchodziło do tego testu.

— Aleksandar Jovanovic

To prawda, przy wystarczającej ilości danych możesz pokazać, że dowolnie małe, ale niezerowe rozmiary efektów są statystycznie znaczące. Kluczem tutaj jest rozpoznanie różnicy między istotnością statystyczną a praktyczną. Aby źle cytować Homera Simpsona, „możesz użyć wartości p, aby udowodnić wszystko, co jest nawet zdalnie prawdziwe”.

— Nuclear Wang,

5

Statystyka testu spada, ponieważ twoje rozkłady są bardzo podobne, a większe próbki mają mniej hałasu. Jeśli miałbyś porównać dwa zastosowane rozkłady teoretyczne, powinieneś uzyskać „prawdziwą” statystykę KS. W miarę dodawania kolejnych danych szacowana statystyka KS powinna zbliżać się do tej prawdziwej wartości. Jednakże, nawet gdy twoja statystyka KS maleje, twoje zaufanie rośnie, że w rzeczywistości są to dwa różne rozkłady (tj. Spada wartość p), ponieważ masz większe zaufanie do swoich oszacowań poszczególnych rozkładów.

— adam.r
źródło

3

Praktycznie: zdobycie większej ilości danych nie jest takie łatwe (chciałbym, żeby było). Usuwanie danych tylko po to, aby uzyskać pożądaną wartość , jest oszustwem akademickim, a jeśli zostaniesz złapany, masz kłopoty. $p$

Masz jednak rację, że sama wartość ma ograniczoną wartość. W najlepszym razie to tylko początek twojej analizy, a już na pewno nie koniec. Więcej informacji można znaleźć w oświadczeniu ASA na temat wartości . $p$ $p$

— Maarten Buis
źródło

Dzięki za odniesienie, ale wciąż nie jestem pewien, dlaczego statystyki testu ks zmniejszają większą n.

— Oliver Angelil