Stosowność podpisanego testu rangi Wilcoxona

11

Przeszukałem trochę archiwa Cross Validated i chyba nie znalazłem odpowiedzi na moje pytanie. Moje pytanie jest następujące: Wikipedia podaje trzy założenia, które należy uwzględnić podczas testu rang podpisanego przez Wilcoxona (nieco zmodyfikowanego w przypadku moich pytań):

Niech Zi = Xi-Yi dla i = 1, ..., n.

Zakłada się, że różnice Zi są niezależne.
(a.) Każde Zi pochodzi z tej samej ciągłej populacji i (b.) każde Zi jest symetryczne względem wspólnej mediany;
Wartości reprezentowane przez Xi i Yi są uporządkowane ... więc porównania „większe niż”, „mniejsze niż” i „równe” są przydatne.

Dokumentacja testu? Wilcox.test w R wydaje się jednak wskazywać, że (2.b) jest w rzeczywistości czymś, co jest testowane przez procedurę:

„... jeśli podane są zarówno xiy, jak i sparowane jest PRAWDA, przeprowadzany jest test rang podpisany przez Wilcoxona dla wartości zerowej, że rozkład ... x - y (w sparowanym przypadku dwóch próbek) jest symetryczny względem mu.”

Brzmi to dla mnie tak, jakby test był przeprowadzany dla hipotezy zerowej, że „Z jest rozmieszczone symetrycznie wokół mediany mu = SomeMu” - tak, że odrzucenie zerowe może być albo odrzuceniem symetrii, albo odrzuceniem, które mu wokół którego Z jest symetryczna to SomeMu.

Czy to prawidłowe zrozumienie dokumentacji R dla wilcox.test? To ważne, oczywiście, dlatego, że przeprowadzam szereg testów różnicy par na niektórych danych przed i po (powyżej „X” i „Y”). Dane „przed” i „po” są mocno wypaczone, ale różnice nie są wypaczone tak bardzo (choć nadal są nieco wypaczone). Rozumiem przez to, że dane „przed” lub „po” rozpatrywane same mają skośność ~ 7 do 21 (w zależności od próbki, na którą patrzę), podczas gdy dane „różnic” mają skośność ~ = 0,5 do 5. Wciąż skośne, ale nie tak bardzo.

Jeśli posiadanie skośności w moich „różnicach” spowoduje, że test Wilcoxona da mi fałszywe / stronnicze wyniki (jak sugeruje artykuł w Wikipedii), to skośność może być dużym problemem. Jeśli jednak testy Wilcoxona faktycznie sprawdzają, czy rozkład różnic jest „symetryczny wokół mu = SomeMu” (jak wydaje się wskazywać test? Wilcox.test), nie ma to większego znaczenia.

Zatem moje pytania to:

Która powyższa interpretacja jest poprawna? Czy skośność w moim rozkładzie „różnic” wpłynie na mój test Wilcoxona?
Jeśli skośność jest problemem: „Ile skośności jest problemem?”
Jeśli podpisane testy rang Wilcoxona wydają się tutaj rażąco nieodpowiednie, jakieś sugestie dotyczące tego, czego powinienem użyć?

Dzięki wielkie. Jeśli masz jakieś dodatkowe sugestie na temat tego, jak mógłbym przeprowadzić tę analizę, cieszę się, że je słyszę (chociaż mogę również otworzyć inny wątek w tym celu). To także moje pierwsze pytanie w sprawie Cross Validated; jeśli masz sugestie / komentarze na temat tego, jak zadałem to pytanie, jestem również otwarty na to!

Trochę tła: analizuję zestaw danych, który zawiera spostrzeżenia na temat tego, co nazywam „błędami w firmie produkcyjnej”. Mam spostrzeżenie na temat błędów występujących w procesie produkcyjnym przed inspekcją niespodziewaną i po niej, a jednym z celów analizy jest udzielenie odpowiedzi na pytanie: „czy kontrola ma wpływ na zaobserwowaną liczbę błędów?”

Zestaw danych wygląda mniej więcej tak:

ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD
0123,1,1,1,0,1,1,1,0 
2345,1,0,0,0,0,1,1,0
6789,2,1,0,1,0,1,0,0
1234,8,8,0,0,1,0,0,0

Istnieje około 4000 obserwacji. Pozostałe zmienne to obserwacje katagoryczne opisujące cechy firm. Rozmiar może być mały, średni lub duży, a każda firma jest jedną i tylko jedną z nich. Firmy mogą być dowolnymi lub wszystkimi „typami”.

Poproszono mnie o przeprowadzenie kilku prostych testów, aby sprawdzić, czy istnieją statystycznie istotne różnice w zaobserwowanych poziomach błędu przed i po inspekcjach dla wszystkich firm i różnych podgrup (na podstawie wielkości i rodzaju). Testy T zostały zakończone, ponieważ dane zostały poważnie wypaczone zarówno przed, jak i po, na przykład w R, zanim dane wyglądały mniej więcej tak:

summary(errorsBefore)
# Min.  1st Qu.  Median   Mean  3rd Qu.    Max
# 0.000  0.000    4.000  12.00    13.00  470.0

(Są one wymyślone - obawiam się, że nie mogę opublikować rzeczywistych danych ani żadnych manipulacji z powodu problemów własności / prywatności - przepraszam!)

Sparowane różnice były bardziej scentralizowane, ale nadal niezbyt dobrze dopasowane przez rozkład normalny - zdecydowanie za wysoki. Dane różnic wyglądały mniej więcej tak:

summary(errorsBefore-errorsAfter)
# Min.   1st Qu.  Median   Mean  3rd Qu.    Max
# -110.0  -2.000   0.000  0.005   2.000   140.0

Zasugerowano, żebym użył testu rang podpisanego przez Wilcoxona, a po krótkiej perswazji testu? Wilcox.test i Wikipedii, tutaj wygląda to na test. Biorąc pod uwagę powyższe założenia, uważam, że (1) jest w porządku, biorąc pod uwagę proces generowania danych. Założenie (2.a) nie jest ściśle prawdziwe w odniesieniu do moich danych, ale dyskusja tutaj: alternatywa dla testu Wilcoxona, gdy dystrybucja nie jest ciągła? zdawało się wskazywać, że nie było to zbyt wielkim problemem. Założenie (3) jest w porządku. Moim jedynym zmartwieniem (wierzę) jest Wniebowzięcie (2.b).

Jeszcze jedna uwaga , kilka lat później: ostatecznie wziąłem doskonały kurs statystyki nieparametrycznej i spędziłem dużo czasu na testach sumy rang. W założeniu (2.a) „Każda Zi pochodzi z tej samej ciągłej populacji”, jest idea, że obie próbki papki pochodzą z populacji o jednakowej wariancji - okazuje się to niezwykle ważne, mówiąc praktycznie. Jeśli masz obawy dotyczące różnej wariancji w populacjach (z których pobierasz próbki), powinieneś się martwić o użycie WMW.

r hypothesis-testing

— CompEcon
źródło

Dzięki za dwie odpowiedzi! Obaj dość mi pomogli. Gdybym mógł, „wybrałbym oba”. Mike wskazał mi na teoretyczne zrozumienie, które było bardzo pomocne koncepcyjnie, mimo że Aniko nieco bardziej bezpośrednio odpowiedział na moje pierwotne pytanie. Dziękuję wam obu!

— CompEcon

8

Wikipedia wprowadziła cię w błąd, stwierdzając „... jeśli zarówno x, jak i y są podane i sparowane jest PRAWDA, podpisany przez Wilcoxona test rangi zerowej, że rozkład ... x - y (w sparowanym przypadku dwóch próbek) jest symetryczny o mu jest wykonywane ”.

Test określa, czy wartości są symetryczne wokół mediany określonej w hipotezie zerowej (zakładam, że zera). Skośność nie stanowi problemu, ponieważ test rangi ze znakiem, podobnie jak większość testów nieparametrycznych, jest „wolny od dystrybucji”. Cena, którą płacisz za te testy, to często obniżona moc, ale wygląda na to, że masz wystarczająco dużą próbkę, aby to przezwyciężyć. $z_i = x_i - y_i$

Alternatywą dla testu sumy rang może być wypróbowanie prostej transformacji, takiej jak i gdy istnieje ryzyko, że pomiary te mogą z grubsza przebiegać w logarytmicznym rozkładzie - więc zalogowani wartości powinny wyglądać jak „krzywizna dzwonowa”. Następnie możesz użyć podczas testu i przekonać siebie (i swojego szefa, który tylko wziął statystyki biznesowe), że test sumowania rang działa. Jeśli to zadziała, istnieje premia: test t na średnich dla danych logarytmicznych to porównanie median dla oryginalnych, nietransformowanych pomiarów. $\ln(x_i)$ $\ln(y_i)$

Mnie? Zrobiłbym obie rzeczy i cokolwiek innego, co mógłbym ugotować (test współczynnika wiarygodności na podstawie Poissona według wielkości firmy?). Testowanie hipotez polega na ustaleniu, czy dowody są przekonujące, a niektórzy ludzie przyjmują mnóstwo przekonujących.

— Mike Anderson
źródło

Ach, to ma sens. Zwłaszcza teraz, kiedy wróciłem do domu i wyciągnąłem mój stary podręcznik DeGroot & Schervish, który zawiera ładny opis tego, co faktycznie robią te testy znaków. Fantastyczny. I dzięki za ogólne przemyślenia na temat testowania hipotez :) Lubię perspektywę. Jedna drobna uwaga: część, którą uważasz za wprowadzającą w błąd, pochodzi w rzeczywistości z R, z dokumentacji wilcox.test. Jest to dla mnie trochę niepokojące ...

— CompEcon

9

Zarówno Wikipedia, jak i strona pomocy R są w pewnym sensie poprawne i próbują powiedzieć to samo, po prostu inaczej to wyrażają.

Artykuł w Wikipedii podaje hipotezy jako (mediana = 0) vs (mediana! = 0) i mówi, że możesz wyciągnąć to z testu, jeśli różnice mają rozkład symetryczny (+ inne założenia).

Strona pomocy R jest bardziej szczegółowa, podaje hipotezy jako (mediana = 0, a różnice mają rozkład symetryczny) vs (przynajmniej jedna z nich jest fałszywa). Przesunął więc założenie do hipotezy zerowej. Myślę, że zrobili to, aby podkreślić potrzebę symetryczności: przy wypaczonych różnicach test rangi ze znakiem odrzuci hipotezę zerową, nawet jeśli mediana jest martwa. Jeśli czytasz podręcznik, może również powiedzieć, że testowana hipoteza zerowa wynosi P (X> Y) = 0,5 - reszta po prostu z tego wynika.

Jeśli chodzi o zastosowanie, pytanie oczywiście brzmi, czy zależy Ci konkretnie na medianie (a następnie problem polega na skośności, a test mediany jest możliwą alternatywą), czy też zależy ci na całym rozkładzie, a następnie P (X> y)! = 0,5 to dowód zmian.

— Aniko
źródło

1

Ok, to ma sens. Dzięki za wkład! Zauważam, że strona Wikipedii dotycząca testu mediany mówi, że preferowany jest niepowiązany test Manna-Whitneya-U. To natychmiast sprawia, że myślę, że w pewnym sensie wracam do miejsca, w którym zacząłem, myśląc, że sparowany test Wilcoxona w jakiś sposób wykorzystuje więcej informacji. Być może to, co naprawdę próbuję przemyśleć, ma na myśli to, co masz na myśli, mówiąc „dbaj o medianę… lub o całą dystrybucję”. Dbam o całą dystrybucję, ale charakteryzuję ją poprzez medianę.

— CompEcon