Testy porównujące rozkłady są testami wykluczającymi. Zaczynają od hipotezy zerowej, że 2 populacje są identyczne, a następnie próbują odrzucić tę hipotezę. Nigdy nie możemy udowodnić, że wartość zerowa jest prawdziwa, po prostu ją odrzuć, więc testów tych nie można naprawdę wykorzystać do wykazania, że 2 próbki pochodzą z tej samej populacji (lub identycznych populacji).
Jest tak, ponieważ mogą występować niewielkie różnice w rozkładach (co oznacza, że nie są identyczne), ale tak małe, że testy nie mogą tak naprawdę znaleźć różnicy.
Rozważ 2 rozkłady, pierwszy jest równomierny od 0 do 1, drugi jest mieszaniną 2 mundurów, więc wynosi 1 między 0 a 0,999, a także 1 między 9999 a 10 (0 gdzie indziej). Tak wyraźnie te rozkłady są różne (pytanie, czy różnica jest znacząca, to kolejne pytanie), ale jeśli weźmiesz próbkę o wielkości 50 z każdej (łącznie 100), istnieje ponad 90% szans, że zobaczysz tylko wartości od 0 do 0,999 i nie widzieć żadnej prawdziwej różnicy.
Istnieją sposoby wykonywania tak zwanego testowania równoważności, w którym pytasz, czy 2 dystrybucje / populacje są równoważne, ale musisz zdefiniować, co uważasz za równoważne. Zwykle pewna miara różnicy mieści się w danym zakresie, tzn. Różnica w 2 średnich jest mniejsza niż 5% średniej z 2 średnich lub statystyka KS jest poniżej określonego poziomu odcięcia, itp. może następnie obliczyć przedział ufności dla statystyki różnicowej (różnica średnich może być tylko przedziałem ufności t, może być konieczne zastosowanie innych metod ładowania, symulacji lub innych metod). Jeśli cały przedział ufności mieści się w „regionie równoważności”, wówczas uznajemy 2 populacje / rozkłady za „równoważne”.
Trudność polega na ustaleniu, jaki powinien być region równoważności.