Dlaczego powiązania są tak trudne w statystyce nieparametrycznej?

Mój tekst nieparametryczny, Practical Nonparametric Statistics , często podaje czyste formuły dla oczekiwań, wariancji, statystyk testowych itp., Ale zawiera zastrzeżenie, że działa to tylko wtedy, gdy zignorujemy więzi. Przy obliczaniu statystyki U Manna-Whitneya zaleca się, abyś wyrzucał związane pary podczas porównywania większych.

Rozumiem, że więzi tak naprawdę nie mówią nam wiele o tym, która populacja jest większa (jeśli to nas interesuje), ponieważ żadna grupa nie jest większa od drugiej, ale nie wydaje się, żeby miało to znaczenie przy opracowywaniu rozkładów asymptotycznych.

Dlaczego więc takie rozterki wiążą się z niektórymi nieparametrycznymi procedurami? Czy istnieje sposób na wydobycie użytecznych informacji z więzi, zamiast po prostu ich wyrzucić?

EDYCJA: W odniesieniu do komentarza @ whuber ponownie sprawdziłem źródła, a niektóre procedury używają średniej rang zamiast całkowicie upuszczać powiązane wartości. Chociaż wydaje się to rozsądniejsze w odniesieniu do zatrzymywania informacji, wydaje mi się również, że brakuje jej rygoru. Duch pytania pozostaje jednak niezmienny.

nonparametric ties

— Christopher Aden
źródło

Czy mówisz, że praktyczne statystyki nieparametryczne nakazują „ wyrzucać ” dane, gdy są powiązane? Czy mógłbyś źle interpretować jego rady? Czy mógłbyś to dokładnie podać?

— whuber

Tak, możliwe, że źle interpretuję tę radę. Od tego samego autora: jstor.org/stable/2284536 "Wilcoxon zasugerował początkowe usunięcie zer z danych i wykonanie testu na zmniejszonym zbiorze danych. Jeśli nie ma niezerowych powiązań, procedura ta warunkowo (podając liczbę zer) darmowy test dystrybucji i umożliwia wykorzystanie istniejących dokładnych tabel wartości krytycznych. Z tego powodu większość książek na temat statystyki nieparametrycznej włącza metodę Wilcoxona do opisu testu ”

— Christopher Aden

To prawda, odnosi się to do testu Wilcoxon Signed Rank, ale słyszałem podobne porady stosowane w innych procedurach NP. W odniesieniu do przykładu Manna-Whitneya wróciłem i sprawdziłem w książce, i masz rację, że się mylę. W przypadku Manna-Whitneya książka zaleca uśrednienie rang powiązanych wartości, tj .: jeśli szeregi 6 i 7 są powiązane, każdemu z nich przypisuje się wartość 6,5.

— Christopher Aden

Dziękuję Ci. Istnieją rygorystyczne sposoby rozliczania powiązanych grup. Są ważne podczas pracy z cenzurowanymi (ale ciągłymi) danymi, ponieważ często wartości cenzurowane stanowią dużą powiązaną grupę. Testy sumy rang Kruskala-Wallisa i Wilcoxona znajdują się w rozdziale 18 RO Gilbert, * Metody statystyczne monitorowania zanieczyszczenia środowiska. ”Formuły zawierające powiązane dane mogą się skomplikować, ale w niektórych przypadkach (np. Test KW) wszystko, co musisz zrobić oblicza tabelę ANOVA dla szeregów

— whuber

Większość prac nad parametrami nieparametrycznymi została pierwotnie wykonana przy założeniu ciągłego rozkładu leżącego u podstaw, w którym powiązania byłyby niemożliwe (jeśli byłyby wystarczająco dokładnie zmierzone). Teorię można następnie oprzeć na rozkładach statystyk zamówień (które są znacznie prostsze bez powiązań) lub innych formuł. W niektórych przypadkach statystyki wydają się być w przybliżeniu normalne, co sprawia, że wszystko jest naprawdę łatwe. Kiedy więzi są wprowadzane albo z powodu zaokrąglenia danych, albo z natury dyskretnych, standardowe założenia się nie sprawdzają. Przybliżenie może być w niektórych przypadkach wystarczające, ale nie w innych, więc często najłatwiej jest po prostu ostrzec, że te formuły nie działają z powiązaniami.

Istnieją narzędzia do niektórych standardowych testów nieparametrycznych, które opracowały dokładny rozkład w przypadku obecności wiązań. Pakiet exactRankTests dla R jest jednym przykładem.

Jednym prostym sposobem radzenia sobie z powiązaniami jest użycie testów losowych, takich jak testy permutacji lub ładowanie początkowe. Nie martwią się one rozkładami asymptotycznymi, ale wykorzystują dane takie, jakie są, więzi i tak dalej (zauważ, że przy wielu powiązaniach nawet te techniki mogą mieć niską moc).

Kilka lat temu był artykuł (myślałem w American Statistician, ale go nie znajduję), który omawiał idee więzi i niektóre rzeczy, które możesz z nimi zrobić. Jedna kwestia polega na tym, że zależy to od pytania, które zadajesz, co zrobić z więzami może być bardzo różny w teście wyższości w porównaniu z testem nie-niższości.

— Greg Snow
źródło