Hipoteza zerowa Manna-Whitneya przy nierównej wariancji


9

Jestem tylko ciekawy hipotezy zerowej testu U Manna-Whitneya. Często widzę, że stwierdzono, iż hipoteza zerowa mówi, że dwie populacje mają równe rozkłady. Ale myślę - gdybym miał dwie normalne populacje o tej samej średniej, ale niezwykle nierównej wariancji, test Manna-Whitneya prawdopodobnie nie wykryłby tej różnicy.

Widziałem także, że stwierdzono, iż hipoteza zerowa testu Manna-Whitneya wynosi lub prawdopodobieństwo obserwacji z jednej populacji ( X ) przewyższa obserwację z drugiej populacji ( Y ) (po wykluczenie więzi) wynosi 0,5. Wydaje się to mieć nieco więcej sensu, ale nie wydaje się równoważne z pierwszą hipotezą zerową, którą podałem.Pr(X>Y)=0.5XY

Mam nadzieję, że uzyskam trochę pomocy w rozwikłaniu tego. Dzięki!

Odpowiedzi:


5

Test Manna-Whitneya jest szczególnym przypadkiem testu permutacji (rozkład pod wartością zerową oblicza się na podstawie wszystkich możliwych permutacji danych), a testy permutacji mają wartość zerową jako identyczne rozkłady, więc jest to technicznie poprawne.

Jednym ze sposobów myślenia o statystyce testu Manna-Whitneya jest miara liczby przypadków, gdy losowo wybrana wartość z jednej grupy przekracza losowo wybraną wartość z drugiej grupy. Zatem P (X> Y) = 0,5 również ma sens i jest to technicznie właściwość równych rozkładów zerowych (zakładając ciągłe rozkłady, w których prawdopodobieństwo powiązania wynosi 0). Jeśli 2 rozkłady są takie same, prawdopodobieństwo X jest większe niż Y wynosi 0,5, ponieważ oba są wyciągane z tego samego rozkładu.

Stwierdzony przypadek 2 rozkładów mających te same średnie, ale bardzo różne wariancje jest zgodny z drugą hipotezą zerową, ale nie pierwszą z identycznych rozkładów. Możemy wykonać symulację, aby zobaczyć, co dzieje się w tym przypadku z wartościami p (teoretycznie powinny one być równomiernie rozmieszczone):

> out <- replicate( 100000, wilcox.test( rnorm(25, 0, 2), rnorm(25,0,10) )$p.value )
> hist(out)
> mean(out < 0.05)
[1] 0.07991
> prop.test( sum(out<0.05), length(out), p=0.05 )

        1-sample proportions test with continuity correction

data:  sum(out < 0.05) out of length(out), null probability 0.05
X-squared = 1882.756, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is not equal to 0.05
95 percent confidence interval:
 0.07824054 0.08161183
sample estimates:
      p 
0.07991 

Wyraźnie więc odrzuca to częściej niż powinno, a hipoteza zerowa jest fałszywa (odpowiada to równości rozkładów, ale nie prob = 0,5).

Myślenie w kategoriach prawdopodobieństwa X> Y napotyka również kilka interesujących problemów, jeśli kiedykolwiek porównasz populacje oparte na kościach Efrona .


Cześć Greg, dziękuję za odpowiedź. Brzmi jak to, co mówisz, że znalazłem jakiś szczególny przypadek, w którym test nie działa poprawnie przy równych rozkładach zerowych. Co więcej, hipotezy zerowe, które podałem, nie są równe. Czy to jest poprawne?
Jimj,

4

Mann-Whitney nie jest wrażliwy na zmiany wariancji przy jednakowej średniej, ale może - jak widać przy postaci , wykryć różnice, które prowadzą do odchylenia od (np. gdzie zarówno średnia, jak i wariancja rosną razem). Dość wyraźnie, jeśli masz dwie normalne z jednakową średnią, ich różnice są symetryczne względem zera. Dlatego , co jest sytuacją zerową.P(X>Y)=0.5P(X>Y)0.5P(X>Y)=P(XY>0)=12

Na przykład, jeśli rozkład jest wykładniczy ze średnią podczas gdy ma rozkład wykładniczy ze średnią (zmiana skali), Mann-Whitney jest na to wrażliwy (w rzeczywistości, biorąc logi obu stron, jest to po prostu zmiana lokalizacji, a transformacja monotoniczna nie wpływa na Manna-Whitneya).Y1Xk

-

Jeśli interesują Cię testy, które są koncepcyjnie bardzo podobne do testu Manna-Whitneya, które są wrażliwe na różnice w rozłożeniu przy równych medianach, istnieje kilka takich testów.

Istnieje na przykład test Siegel-Tukey i test Ansari-Bradley, oba ściśle powiązane z testem dwóch próbek Manna-Whitneya-Wilcoxona.

Oba są oparte na podstawowej idei rangowania od końca.

Jeśli używasz R, test Ansari-Bradley jest wbudowany ... ?ansari.test

W rzeczywistości Siegel-Tukey po prostu wykonuje test Manna-Whitneya-Wilcoxona na szeregach obliczonych z próbki inaczej; jeśli sami uszeregujesz dane, tak naprawdę nie potrzebujesz osobnej funkcji dla wartości p. Niemniej jednak możesz znaleźć kilka, jak tutaj:

http://www.r-statistics.com/2010/02/siegel-tukey-a-non-parametric-test-for-equality-in-variability-r-code/

-

(w odniesieniu do komentarza ttnphns pod moją pierwotną odpowiedzią)

Nadmiernie interpretujesz moją odpowiedź, czytając ją jako niezgadzającą się z @GregSnow w szczególnie merytorycznym sensie. Z pewnością jest różnica w nacisku i do pewnego stopnia w tym, o czym mówimy, ale byłbym bardzo zaskoczony, gdyby kryło się za tym wiele prawdziwych sporów.

Przytoczmy Manna i Whitneya: „ Do przetestowania hipotezy zaproponowano statystykę zależną od względnych stopni i . ” Jest to jednoznaczne; całkowicie wspiera pozycję @ GregSnow.Uxyf=g

Zobaczmy teraz, jak zbudowana jest statystyka: „ Niech policzy, ile razy poprzedza .Uyx ” Teraz, jeśli ich null jest prawdziwe, prawdopodobieństwo tego zdarzenia wynosi ... ale istnieją inne sposoby uzyskania prawdopodobieństwa 0,5 iw tym sensie można interpretować, że test może działać w innych okolicznościach. O ile szacują (przeskalowane) prawdopodobieństwo, że > , obsługuje to, co powiedziałem.12YX

Jednak aby zagwarantować, że poziomy istotności są dokładnie poprawne, potrzebny będzie rozkład aby pasował do rozkładu zerowego. Wynika to z założenia, że ​​wszystkie permutacje etykiet grupowych i do połączonych obserwacji pod zerą były równie prawdopodobne. Z pewnością tak jest w przypadku . Dokładnie tak jak powiedział @GregSnow.UXYf=g

Pytanie brzmi, w jakim stopniu tak jest (tj. Że rozkład statystyki testowej odpowiada rozkładowi uzyskanemu przy założeniu, że lub w przybliżeniu), dla bardziej ogólnie wyrażonej wartości null.f=g

Wierzę, że w wielu sytuacjach tak się dzieje; w szczególności w sytuacjach obejmujących, ale bardziej ogólną niż ta, którą opisujesz (dwie normalne populacje o tej samej średniej, ale niezwykle nierównej wariancji można dość ogólnie uogólnić bez zmiany wynikowego rozkładu opartego na rangach), uważam, że rozkład statystyki testowej okazuje się, że ma taki sam rozkład, na podstawie którego został wyprowadzony, i dlatego powinien tam obowiązywać. Zrobiłem kilka symulacji, które wydają się to potwierdzać. Jednak nie zawsze będzie to bardzo przydatny test (może mieć słabą moc).

Nie oferuję żadnego dowodu, że tak jest. Zastosowałem argument intuicyjny / falisty ręcznie, a także wykonałem kilka podstawowych symulacji, które sugerują, że to prawda - że Mann-Whitney działa (pod tym względem, że ma „prawidłowy” rozkład pod zerą) znacznie szerzej niż wtedy, gdy .f=g

Rób to, co chcesz, ale nie uważam tego za merytoryczną niezgodę z @GregSnow

Odniesienie - oryginalny artykuł Manna i Whitneya


Czy ja Ci rację, że zgadzają się z tym słowa z stronie dyskusji Manna-Whitneya Wikipedii: the null hypothesis of Mann-Whitney U-test is not about the equality of distributions. Is is about the symmetry between two populations with respect to the probability of obtaining a larger observation. A więc nie zgadzasz się z odpowiedzią @ Grega, prawda?
ttnphns

Dodałem trochę dyskusji w edycji.
Glen_b

Bardzo fajny dodatek. Będę się tego uczył (zawsze czułem się tak, jakby w teście MW były jakieś niuanse, które wciąż mi umykały). W międzyczasie zgodzisz się, gdybym powiedział: „Ponieważ statystyki testu MW odzwierciedlają (nie) równość średnich rang , mogą wystąpić sytuacje, w których f ~ = g [rozumiem f, g jako pierwotne rozkłady, poprzedni ranking], ale test jest jednak w pełni istotny, ponieważ nadal zajmuje się tym samym H0 co dla f = g. Przykładem takiej sytuacji są w pełni identyczne rozkłady symetryczne z wyjątkiem parametru rozproszenia (wariancji) ".
ttnphns,

W zapisie (Mann Whitney drodze), i oznaczają gęstość i . Zgadzam się, że w zakresie, w jakim zweryfikowałem / zrozumiałem okoliczności, wydaje się, że tak jest w przypadku twojego oświadczenia. Podejrzewam, że w Mann-Whitney wciąż jest mnóstwo rzeczy, które również mi umykają. fgXY
Glen_b
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.