Wycięcia na wykresie ramkowym vs. interwał Tukeya-Kramera


10

W „wycięcie” dokument pomocy ( lub tekst oryginalny ) z wykresu pudełkowego w „R” daje następujące elementy:

Jeżeli wycięcia dwóch wykresów nie pokrywają się, jest to „mocny dowód”, że dwie mediany różnią się (Chambers i in., 1983, s. 62). Zastosowane obliczenia znajdują się w boxplot.stats.

a „ boxplot.stats ” podaje:

Nacięcia (na żądanie) rozciągają się do +/- 1,58 IQR / sqrt (n). Wydaje się, że opiera się to na tych samych obliczeniach, co wzór na 1,57 w Chambers i wsp. (1983, s. 62), podany w McGill i wsp. (1978, s. 16). Opierają się one na asymptotycznej normalności mediany i w przybliżeniu równych wielkościach próbek dla dwóch porównywanych median, i mówi się, że są raczej niewrażliwe na podstawowe rozkłady próbek. Wydaje się, że chodzi o podanie około 95% przedziału ufności dla różnicy między dwoma medianami.

Teraz jestem bardziej zaznajomiony z używaniem wersji JMP testu Tukey-Kramer do porównywania średnich kolumn. Dokumentacja dla JMP daje to:

Pokazuje test, który jest dopasowany do wszystkich różnic między średnimi. Jest to test HSD Tukeya lub Tukeya-Kramera (różnica naprawdę istotna). (Tukey 1953, Kramer 1956). Ten test jest dokładnym testem na poziomie alfa, jeśli rozmiary próbek są takie same, i zachowawcze, jeśli rozmiary próbek są różne (Hayter 1984).

Pytanie: Jaki jest charakter związku między tymi dwoma podejściami? Czy istnieje sposób na przekształcenie jednego w drugi?

Wygląda na to, że szuka się w przybliżeniu 95% CI dla mediany i określa się, czy zachodzi ona na siebie; a drugi to „dokładny test alfa” (moje próbki są tego samego rozmiaru) w celu ustalenia, czy mediany dwóch zestawów próbek znajdują się w rozsądnym zakresie od siebie.

Odnoszę się do pakietów, ale interesuje mnie matematyka stojąca za logiką.

Odpowiedzi:


11

Jeśli chodzi o karbowany wykres pudełkowy, odniesienie do McGill i wsp. [1] wspomniane w twoim pytaniu zawiera dość kompletne szczegóły (nie wszystko, co tu mówię, jest tam wyraźnie wymienione, ale mimo to jest wystarczająco szczegółowe, aby je zrozumieć).

Przedział jest solidny, ale oparty na Gaussie

Artykuł cytuje następujący przedział dla wycięć (gdzie MR

M±1.7×1.25R/(1.35N)

gdzie:

  • to asymptotyczny współczynnik konwersji, który zamienia IQR w estymaty σ - konkretnie, jest to w przybliżeniu różnica między kwantylem 0,75 a kwantylem 0,25 normalnej normy; kwartyle populacji znajdują się w odległości około 1,35 σ , więc wartość około R / 1,35 powinna być spójnym (asymptotycznie obiektywnym) oszacowaniem1.35σσR/1.35σ

  • 1.2514nf02f0f012πσ0.3989σ12Nf0=π/2σ/N1.253σ/N

    Jak wspomina StasK tutaj , mniejszyN

    1.25R/(1.35N)

  • Pozostaje więc do omówienia współczynnik 1,7.

    Zauważ, że jeśli porównamy jedną próbkę ze stałą wartością (powiedzmy hipotetyczną medianą), użyjemy 1,96 do testu 5%; w konsekwencji, gdybyśmy mieli dwa bardzo różne standardowe błędy (jeden stosunkowo duży, jeden bardzo mały), byłby to czynnik, który należy zastosować (ponieważ gdyby zerowy był prawdziwy, różnica byłaby prawie całkowicie spowodowana zmiennością w tym z większym standardowy błąd, a mały można - w przybliżeniu - traktować jako skutecznie naprawiony).

    1.96/21.386 asymptotycznie.

    rr:11.96/1+1/r

Zestawienie ich wszystkich (1.35,1.25 i 1.7) razem daje około 1,57. Niektóre źródła uzyskują 1,58, obliczając dokładniej 1,35 lub 1,25 (lub oba), ale jako kompromis między 1,386 a 1,96, że 1,7 nie jest nawet dokładny w stosunku do dwóch znaczących liczb (jest to tylko wartość kompromisowa dla gry w piłkę), więc dodatkowa precyzja to bez sensu (równie dobrze mogliby zaokrąglić całą sprawę do 1.6 i skończyć z tym).

Zauważ, że nigdzie tutaj nie ma korekty wielu porównań.


Istnieją pewne analogie w granicach ufności dla różnicy w HSD Tukey-Kramer :

y¯iy¯j±qα;k;Nk2σ^ε1ni+1nj

Ale zauważ to

  • c.1ni+1njk.1nik.1nj1.961.96/2

  • opiera się na środkach, a nie środkach (więc nie 1.35)

  • q2

Tak więc, chociaż kilka pomysłów dotyczących formy komponentów jest nieco analogicznych, w rzeczywistości są one zupełnie różne w tym, co robią.

[1] McGill, R., Tukey, JW i Larsen, WA (1978) Wariacje wykresów pudełkowych. The American Statistician 32, 12–16.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.