Pod hipotezą zerową, że rozkłady są takie same i obie próbki są otrzymywane losowo i niezależnie od wspólnego rozkładu, możemy opracować rozmiary wszystkich testów 5×5 (deterministycznych), które można wykonać, porównując jedną literę z drugą. Niektóre z tych testów wydają się mieć wystarczającą moc do wykrywania różnic w rozkładach.
Analiza
Oryginalna definicja 5 literowego podsumowania każdej zamówionej partii liczb x1≤x2≤⋯≤xn jest następująca [Tukey EDA 1977]:
Dla dowolnej liczby m=(i+(i+1))/2 w {(1+2)/2,(2+3)/2,…,(n−1+n)/2} zdefiniuj xm=(xi+xi+1)/2.
Niech i¯=n+1−i .
Niech m=(n+1)/2 i h=(⌊m⌋+1)/2.
5 -letter streszczenie to zestaw {X−=x1,H−=xh,M=xm,H+=xh¯,X+=xn}. Jego elementy są znane odpowiednio jako minimum, dolny zawias, środkowy, górny zawias i maksymalny .
Na przykład w zestawie danych ( - 3 , 1 , 1 , 2 , 3 , 5 , 5 , 5 , 7 , 13 , 21 ) , że może obliczyć, że n = 12 , m = 13 / 2 i H = 7 / 2 , skąd
X-H.-M.H.+X+= - 3 ,= x7 / 2= ( x3)+ x4) / 2 = ( 1 + 2 ) / 2 = 3 / 2 ,= x13 / 2= ( x6+ x7) / 2 = ( 5 + 5 ) / 2 = 5 ,= x7 / 2¯¯¯¯¯¯¯¯= x19 / 2= ( x9+ x10 ) / 2 = ( 5 + 7 ) / 2 = 6 ,= x12= 21
Zawiasy są bliskie (ale zwykle nie dokładnie takie same jak) kwartyle. Jeśli stosuje się kwartyle zauważyć, że w ogóle zostaną one ważone arytmetyczne z dwóch statystyk rzędu a tym samym będzie mieścić się w jednym z przedziałów , gdzie i może być określona z n a algorytm obliczyć kwartyle. Na ogół, jeśli P jest w przedziale [ i , i + 1 ] , że będzie swobodnie zapisu x Q odnieść się do niektórych takich ważoną średnią x i i[ xja, xi + 1]janq[ i , i + 1 ]xqxja .xi+1
Z dwóch partii danych i ( r j , j = 1 , ... , m ) , istnieją dwa oddzielne zestawienia pięcioliterowego. Możemy przetestować hipotezę zerową, że oba są przypadkowymi próbkami o wspólnym rozkładzie F , porównując jeden z x- liter x q z jedną z y- liter y r . Na przykład możemy porównać górny zawias x(xi,i=1,…,n)(yj,j=1,…,m),Fxxqyyrxdo dolnego zawiasu , aby zobaczyć, czy x jest znacznie mniejsze niż y . Prowadzi to do jednoznacznego pytania: jak obliczyć tę szansę,yxy
PrF(xq<yr).
Dla frakcyjnej i R nie jest to możliwe bez znajomości F . Ponieważ jednak x q ≤ x ⌈ q ⌉ i y ⌊ r ⌋ ≤ y r , to a fortioriqrFxq≤x⌈q⌉y⌊r⌋≤yr,
PrF(xq<yr)≤PrF(x⌈q⌉<y⌊r⌋).
We can thereby obtain universal (independent of F) upper bounds on the desired probabilities by computing the right hand probability, which compares individual order statistics. The general question in front of us is
Jaka jest szansa, że najwyższa z wartości n będzie mniejsza niż r- ta najwyższa z wartości m pobranych ze wspólnego rozkładu?qthnrthm
Nawet to nie ma uniwersalnej odpowiedzi, chyba że wykluczymy możliwość, że prawdopodobieństwo jest zbyt mocno skoncentrowane na poszczególnych wartościach: innymi słowy, musimy założyć, że więzi nie są możliwe. Oznacza to, że musi być rozkładem ciągłym. Chociaż jest to założenie, jest słabe i nieparametryczne.F
Rozwiązanie
Rozkład nie odgrywa żadnej roli w obliczeniach, ponieważ po ponownym wyrażeniu wszystkich wartości za pomocą transformacji prawdopodobieństwa F otrzymujemy nowe partieFF
X(F)=F(x1)≤F(x2)≤⋯≤F(xn)
and
Y(F)=F(y1)≤F(y2)≤⋯≤F(ym).
Moreover, this re-expression is monotonic and increasing: it preserves order and in so doing preserves the event xq<yr. Because F is continuous, these new batches are drawn from a Uniform[0,1] distribution. Under this distribution--and dropping the now superfluous "F" from the notation--we easily find that xq has a Beta(q,n+1−q) = Beta(q,q¯) distribution:
Pr(xq≤x)=n!(n−q)!(q−1)!∫x0tq−1(1−t)n−qdt.
Similarly the distribution of yr is Beta(r,m+1−r). By performing the double integration over the region xq<yr we can obtain the desired probability,
Pr(xq<yr)=Γ(m+1)Γ(n+1)Γ(q+r)3F~2(q,q−n,q+r; q+1,m+q+1; 1)Γ(r)Γ(n−q+1)
Because all values n,m,q,r are integral, all the Γ values are really just factorials: Γ(k)=(k−1)!=(k−1)(k−2)⋯(2)(1) for integral k≥0.
The little-known function 3F~2 is a regularized hypergeometric function. In this case it can be computed as a rather simple alternating sum of length n−q+1, normalized by some factorials:
Γ(q+1)Γ(m+q+1) 3F~2(q,q−n,q+r; q+1,m+q+1; 1)=∑i=0n−q(−1)i(n−qi)q(q+r)⋯(q+r+i−1)(q+i)(1+m+q)(2+m+q)⋯(i+m+q)=1−(n−q1)q(q+r)(1+q)(1+m+q)+(n−q2)q(q+r)(1+q+r)(2+q)(1+m+q)(2+m+q)−⋯.
This has reduced the calculation of the probability to nothing more complicated than addition, subtraction, multiplication, and division. The computational effort scales as O((n−q)2). By exploiting the symmetry
Pr(xq<yr)=1−Pr(yr<xq)
the new calculation scales as O((m−r)2), allowing us to pick the easier of the two sums if we wish. This will rarely be necessary, though, because 5-letter summaries tend to be used only for small batches, rarely exceeding n,m≈300.
Application
Suppose the two batches have sizes n=8 and m=12. The relevant order statistics for x and y are 1,3,5,7,8 and 1,3,6,9,12, respectively. Here is a table of the chance that xq<yr with q indexing the rows and r indexing the columns:
q\r 1 3 6 9 12
1 0.4 0.807 0.9762 0.9987 1.
3 0.0491 0.2962 0.7404 0.9601 0.9993
5 0.0036 0.0521 0.325 0.7492 0.9856
7 0.0001 0.0032 0.0542 0.3065 0.8526
8 0. 0.0004 0.0102 0.1022 0.6
A simulation of 10,000 iid sample pairs from a standard Normal distribution gave results close to these.
To construct a one-sided test at size α, such as α=5%, to determine whether the x batch is significantly less than the y batch, look for values in this table close to or just under α. Good choices are at (q,r)=(3,1), where the chance is 0.0491, at (5,3) with a chance of 0.0521, and at (7,6) with a chance of 0.0542. Which one to use depends on your thoughts about the alternative hypothesis. For instance, the (3,1) test compares the lower hinge of x to the smallest value of y and finds a significant difference when that lower hinge is the smaller one. This test is sensitive to an extreme value of y; if there is some concern about outlying data, this might be a risky test to choose. On the other hand the test (7,6) compares the upper hinge of x to the median of y. This one is very robust to outlying values in the y batch and moderately robust to outliers in x. However, it compares middle values of x to middle values of y. Although this is probably a good comparison to make, it will not detect differences in the distributions that occur only in either tail.
Being able to compute these critical values analytically helps in selecting a test. Once one (or several) tests are identified, their power to detect changes is probably best evaluated through simulation. The power will depend heavily on how the distributions differ. To get a sense of whether these tests have any power at all, I conducted the (5,3) test with the yj drawn iid from a Normal(1,1) distribution: that is, its median was shifted by one standard deviation. In a simulation the test was significant 54.4% of the time: that is appreciable power for datasets this small.
Much more can be said, but all of it is routine stuff about conducting two-sided tests, how to assess effects sizes, and so on. The principal point has been demonstrated: given the 5-letter summaries (and sizes) of two batches of data, it is possible to construct reasonably powerful non-parametric tests to detect differences in their underlying populations and in many cases we might even have several choices of test to select from. The theory developed here has a broader application to comparing two populations by means of a appropriately selected order statistics from their samples (not just those approximating the letter summaries).
These results have other useful applications. For instance, a boxplot is a graphical depiction of a 5-letter summary. Thus, along with knowledge of the sample size shown by a boxplot, we have available a number of simple tests (based on comparing parts of one box and whisker to another one) to assess the significance of visually apparent differences in those plots.