Przeszukałem trochę archiwa Cross Validated i chyba nie znalazłem odpowiedzi na moje pytanie. Moje pytanie jest następujące: Wikipedia podaje trzy założenia, które należy uwzględnić podczas testu rang podpisanego przez Wilcoxona (nieco zmodyfikowanego w przypadku moich pytań):
Niech Zi = Xi-Yi dla i = 1, ..., n.
Zakłada się, że różnice Zi są niezależne.
(a.) Każde Zi pochodzi z tej samej ciągłej populacji i (b.) każde Zi jest symetryczne względem wspólnej mediany;
Wartości reprezentowane przez Xi i Yi są uporządkowane ... więc porównania „większe niż”, „mniejsze niż” i „równe” są przydatne.
Dokumentacja testu? Wilcox.test w R wydaje się jednak wskazywać, że (2.b) jest w rzeczywistości czymś, co jest testowane przez procedurę:
„... jeśli podane są zarówno xiy, jak i sparowane jest PRAWDA, przeprowadzany jest test rang podpisany przez Wilcoxona dla wartości zerowej, że rozkład ... x - y (w sparowanym przypadku dwóch próbek) jest symetryczny względem mu.”
Brzmi to dla mnie tak, jakby test był przeprowadzany dla hipotezy zerowej, że „Z jest rozmieszczone symetrycznie wokół mediany mu = SomeMu” - tak, że odrzucenie zerowe może być albo odrzuceniem symetrii, albo odrzuceniem, które mu wokół którego Z jest symetryczna to SomeMu.
Czy to prawidłowe zrozumienie dokumentacji R dla wilcox.test? To ważne, oczywiście, dlatego, że przeprowadzam szereg testów różnicy par na niektórych danych przed i po (powyżej „X” i „Y”). Dane „przed” i „po” są mocno wypaczone, ale różnice nie są wypaczone tak bardzo (choć nadal są nieco wypaczone). Rozumiem przez to, że dane „przed” lub „po” rozpatrywane same mają skośność ~ 7 do 21 (w zależności od próbki, na którą patrzę), podczas gdy dane „różnic” mają skośność ~ = 0,5 do 5. Wciąż skośne, ale nie tak bardzo.
Jeśli posiadanie skośności w moich „różnicach” spowoduje, że test Wilcoxona da mi fałszywe / stronnicze wyniki (jak sugeruje artykuł w Wikipedii), to skośność może być dużym problemem. Jeśli jednak testy Wilcoxona faktycznie sprawdzają, czy rozkład różnic jest „symetryczny wokół mu = SomeMu” (jak wydaje się wskazywać test? Wilcox.test), nie ma to większego znaczenia.
Zatem moje pytania to:
Która powyższa interpretacja jest poprawna? Czy skośność w moim rozkładzie „różnic” wpłynie na mój test Wilcoxona?
Jeśli skośność jest problemem: „Ile skośności jest problemem?”
Jeśli podpisane testy rang Wilcoxona wydają się tutaj rażąco nieodpowiednie, jakieś sugestie dotyczące tego, czego powinienem użyć?
Dzięki wielkie. Jeśli masz jakieś dodatkowe sugestie na temat tego, jak mógłbym przeprowadzić tę analizę, cieszę się, że je słyszę (chociaż mogę również otworzyć inny wątek w tym celu). To także moje pierwsze pytanie w sprawie Cross Validated; jeśli masz sugestie / komentarze na temat tego, jak zadałem to pytanie, jestem również otwarty na to!
Trochę tła: analizuję zestaw danych, który zawiera spostrzeżenia na temat tego, co nazywam „błędami w firmie produkcyjnej”. Mam spostrzeżenie na temat błędów występujących w procesie produkcyjnym przed inspekcją niespodziewaną i po niej, a jednym z celów analizy jest udzielenie odpowiedzi na pytanie: „czy kontrola ma wpływ na zaobserwowaną liczbę błędów?”
Zestaw danych wygląda mniej więcej tak:
ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD
0123,1,1,1,0,1,1,1,0
2345,1,0,0,0,0,1,1,0
6789,2,1,0,1,0,1,0,0
1234,8,8,0,0,1,0,0,0
Istnieje około 4000 obserwacji. Pozostałe zmienne to obserwacje katagoryczne opisujące cechy firm. Rozmiar może być mały, średni lub duży, a każda firma jest jedną i tylko jedną z nich. Firmy mogą być dowolnymi lub wszystkimi „typami”.
Poproszono mnie o przeprowadzenie kilku prostych testów, aby sprawdzić, czy istnieją statystycznie istotne różnice w zaobserwowanych poziomach błędu przed i po inspekcjach dla wszystkich firm i różnych podgrup (na podstawie wielkości i rodzaju). Testy T zostały zakończone, ponieważ dane zostały poważnie wypaczone zarówno przed, jak i po, na przykład w R, zanim dane wyglądały mniej więcej tak:
summary(errorsBefore)
# Min. 1st Qu. Median Mean 3rd Qu. Max
# 0.000 0.000 4.000 12.00 13.00 470.0
(Są one wymyślone - obawiam się, że nie mogę opublikować rzeczywistych danych ani żadnych manipulacji z powodu problemów własności / prywatności - przepraszam!)
Sparowane różnice były bardziej scentralizowane, ale nadal niezbyt dobrze dopasowane przez rozkład normalny - zdecydowanie za wysoki. Dane różnic wyglądały mniej więcej tak:
summary(errorsBefore-errorsAfter)
# Min. 1st Qu. Median Mean 3rd Qu. Max
# -110.0 -2.000 0.000 0.005 2.000 140.0
Zasugerowano, żebym użył testu rang podpisanego przez Wilcoxona, a po krótkiej perswazji testu? Wilcox.test i Wikipedii, tutaj wygląda to na test. Biorąc pod uwagę powyższe założenia, uważam, że (1) jest w porządku, biorąc pod uwagę proces generowania danych. Założenie (2.a) nie jest ściśle prawdziwe w odniesieniu do moich danych, ale dyskusja tutaj: alternatywa dla testu Wilcoxona, gdy dystrybucja nie jest ciągła? zdawało się wskazywać, że nie było to zbyt wielkim problemem. Założenie (3) jest w porządku. Moim jedynym zmartwieniem (wierzę) jest Wniebowzięcie (2.b).
Jeszcze jedna uwaga , kilka lat później: ostatecznie wziąłem doskonały kurs statystyki nieparametrycznej i spędziłem dużo czasu na testach sumy rang. W założeniu (2.a) „Każda Zi pochodzi z tej samej ciągłej populacji”, jest idea, że obie próbki papki pochodzą z populacji o jednakowej wariancji - okazuje się to niezwykle ważne, mówiąc praktycznie. Jeśli masz obawy dotyczące różnej wariancji w populacjach (z których pobierasz próbki), powinieneś się martwić o użycie WMW.