Testy równoważności dla danych nienormalnych?


9

Mam pewne dane, które niekoniecznie zakładam, że pochodzą z normalnych rozkładów i chciałbym przeprowadzić testy równoważności między grupami. W przypadku normalnych danych istnieją techniki takie jak TOST (dwa jednostronne testy t). Czy istnieje coś analogicznego do TOST dla danych niestandardowych?


1
Nie znam TOST, ale szukasz Manna-Whitneya? Jest to test nieparametryczny (w tym sensie, że nie ma żadnych założeń dotyczących rozkładów), który może dostarczyć dowodów, że dwie grupy pochodzą z różnych rozkładów.
Nick Sabbe

1
Szukam testu, w którym hipoteza zerowa mówi, że istnieje różnica, a alternatywna hipoteza mówi, że nie ma (prawie) żadnej różnicy.
Ryan C. Thompson

Dla małych próbek, można spojrzeć na odpowiedzi w stats.stackexchange.com/questions/49782/... . W przypadku większych próbek klasyczne podejście z testami t jest w porządku dzięki Centralnemu twierdzeniu granicznemu.
Michael M,

3
Nic w zdaniu „Dwa testy jednostronne” - ani logika leżąca u ich podstaw nie sugeruje teorii normalnej. Powinno być całkowicie możliwe dostosowanie go do alternatywy zmiany lokalizacji o nietypowym rozkładzie. Ale uwaga - w wielu przypadkach w przypadku danych niestandardowych, tak naprawdę to, czego naprawdę potrzebujesz, to rodzaj testu równoważności z przesunięciem skali , a przy innych rodzajach danych zamiast tego coś innego. Wiedza o tym, co jest potrzebne, naprawdę zależy od tego, co mierzysz i jaki problem rozwiązujesz. Zamiast próbować ścisnąć kołek w okrągły otwór, warto zbadać kołek.
Glen_b

Odpowiedzi:


8

Logika tost stosuje Wald typu T i z badań statystycznych (tzn i ) nie mogą być stosowane do Ż przybliżonych testy nieparametryczne jak znak , ranga znakowa i testy sumy rang. Dla uproszczenia zakładam, że równoważność jest wyrażana symetrycznie za pomocą pojedynczego terminu, ale rozszerzenie mojej odpowiedzi na asymetryczne terminy równoważności jest proste.θ/sθθ/σθ

Jedną z kwestii, która powstaje przy tym, jest to, że jeśli ktoś jest przyzwyczajony do wyrażania wyrażenia równoważności (powiedzmy ) w tych samych jednostkach co , to wyraz równoważności musi być wyrażony w jednostkach określonego znaku, oznaczonej rangi, lub statystyka sumy rang, który jest zarówno zawiłe i zależne od N .Δθ

Można jednak również wyrazić terminy równoważności TOST w jednostkach samej statystyki testowej. Weź pod uwagę, że w TOST, jeśli , to i . Jeśli pozwolimy , to , a . (Przedstawione tutaj statystyki są oceniane w prawym ogonie: i .) Używanie jednostek zz=θ/σθz1=(Δθ)/σθz2=(θ+Δ)/σθε=Δ/σθz1=εzz2=z+εp1=P(Z>z1)p2=P(Z>z2) rozkład w celu zdefiniowania progu równoważności / trafności może być preferowany w testach nieparametrycznych, ponieważ alternatywa określa próg w jednostkach oznaczonych stopni lub sum rang, który może być merytorycznie nieistotny dla badaczy i trudny do interpretacji.

Jeśli uznamy, że (dla symetrycznych przedziałów równoważności) nie można odrzucić żadnej hipotezy zerowej TOST, gdy , wówczas możemy przystąpić do podjęcia decyzji o odpowiedniej wielkości terminu równoważności. Na przykład .εz1αε=z1α+0.5

Podejście to zostało zaimplementowane z opcjami korekcji ciągłości itp. W pakiecie tost dla Staty (która obejmuje teraz określone implementacje TOST dla testów Shapiro-Wilk i Shapiro-Francia), do których można uzyskać dostęp, wpisując Stata:

Edycja: Dlaczego logika TOST jest dobra, a formacje testów równoważności zostały zastosowane do testów zbiorczych, przekonano mnie, że moje rozwiązanie było oparte na głębokim niezrozumieniu przybliżonych statystyk dla testów Shapiro-Wilka i Shapiro-Francii


3

Nie jest to TOST sam w sobie, ale test Komolgorowa-Smirnowa pozwala przetestować istotność różnicy między rozkładem próbki a drugim rozkładem odniesienia, który możesz określić. Możesz użyć tego testu, aby wykluczyć określony rodzaj różnych rozkładów, ale ogólnie nie różnych rozkładów (przynajmniej nie bez kontroli inflacji błędów w testach wszystkich możliwych alternatyw ... jeśli to w jakiś sposób jest możliwe). Alternatywna hipoteza dla dowolnego testu pozostanie, jak zwykle, mniej szczegółową hipotezą „catch-all”.

Jeśli możesz zadowolić się testem różnic dystrybucyjnych między dwiema grupami, w którym hipoteza zerowa mówi, że obie grupy są równo rozmieszczone, możesz użyć testu Komolgorowa-Smirnowa, aby porównać rozkład jednej grupy z rozkładem drugiej grupy. Prawdopodobnie jest to konwencjonalne podejście: zignoruj ​​różnice, jeśli nie są one istotne statystycznie, i uzasadnij tę decyzję statystykami testowymi.

W każdym razie możesz rozważyć kilka głębszych problemów wynikających z podejścia „wszystko albo nic” do odrzucenia hipotezy zerowej. Jedna z takich kwestii jest bardzo popularna w Cross Validated: „ Czy testowanie normalności jest w zasadzie bezużyteczne”? Ludzie lubią odpowiadać na pytania dotyczące testowania normalności pytaniem: „Dlaczego chcesz to przetestować?” Zakładam, że intencją jest na ogół unieważnienie powodu testowania, co ostatecznie może prowadzić we właściwym kierunku. Istotna odpowiedź na pytanie, które tu podlinkowałem, wygląda następująco:

  1. Jeśli obawiasz się naruszeń założeń testu parametrycznego, powinieneś po prostu znaleźć test nieparametryczny, który nie przyjmuje założeń dystrybucyjnych. Nie sprawdzaj, czy musisz użyć testu nieparametrycznego; po prostu go użyj!
  2. Powinieneś zastąpić pytanie „Czy moja dystrybucja jest znacznie nienormalna?” z: „Jak nienormalny jest mój rozkład i jak to może wpłynąć na moje analizy będące przedmiotem zainteresowania?” Na przykład testy dotyczące tendencji centralnej (szczególnie obejmujące środki) mogą być bardziej wrażliwe na skośność niż na kurtozę i odwrotnie w przypadku testów dotyczących (ko) wariancji. Niemniej jednak istnieją solidne alternatywy dla większości celów analitycznych, które nie są zbyt wrażliwe na żaden rodzaj nienormalności.

Jeśli nadal chcesz przeprowadzić test równoważności, oto kolejna popularna dyskusja na temat Cross Validated, która obejmuje testy równoważności.


1
Testy równoważności są dobrze ustalone, a ty źle rozumiesz jego zerowe hipotezy, które generalnie mają postać H . Jest to hipoteza interwałowa, która może przełożyć się na przykład na dwa jednostronne testy (TOST): H lub H . Jeśli ktoś odrzuci H i H , musisz stwierdzić, że , tzn. Że twoje grupy są równoważne w przedziale . 0:|θθ0|Δ01:θθ0Δ01:θθ0Δ0102Δ<θθ0<Δ[Δ,Δ]
Alexis

Słusznie; Prawdopodobnie trochę wprowadzałem w błąd. Usunąłem części, którym wydajesz się sprzeciwiać. Myślę jednak, że wypowiedziałeś swój komentarz zbyt mocno. Pomimo faktu, że zmuszony dychotomiczny fail to/ rejectpodejście jest ugruntowane, większość próbek nie można całkowicie wykluczyć możliwość, że zerowa jest prawdziwa. Prawie zawsze istnieje szansa na błąd fałszywego odrzucenia, jeśli ktoś nalega na odrzucenie, co zwykle nie jest dosłownie konieczne. To był prawdopodobnie najważniejszy punkt, który chciałem poruszyć pierwotnie. Mam nadzieję, że teraz jest trochę jaśniej bez usuniętych elementów
Nick Stauner

2
Cóż, moim zdaniem, siła testów równoważności (np. H ) wynika z połączenia ich ze znanymi testami różnic (np. H ). Sprawdź to: (1) Odrzuć H i Nie odrzuć H , wnioskuj istotną różnicę ; (2) Nie odrzucaj H i odrzucaj H , stwierdzaj równoważność (dla ); (3) Odrzuć H i Odrzuć H , wyciągnij trywialną różnicę (tzn. Jest tam, ale cię to nie obchodzi); oraz (4) Nie odrzucaj H i Nie odrzucaj H00+0+00+0Δ0+00+0, zakończ nieokreśloność _ / _ słabe testy . Przydaje moc użytecznej analizie.
Alexis

Oczywiście kwestie wrażliwości i swoistości, PPV i NPV nie znikają.
Alexis

-1

Równoważność nigdy nie jest czymś, co możemy przetestować . Pomyśl o hipotezie: vs . Teoria NHST mówi nam, że pod zerą możemy wybrać wszystko pod które najlepiej pasuje do danych. Oznacza to, że prawie zawsze możemy dowolnie zbliżyć się do dystrybucji. Na przykład, jeśli chcę przetestować , model prawdopodobieństwa, który pozwala na osobne rozkłady i , zawsze będzie bardziej prawdopodobny pod zero, naruszenie krytycznych założeń testowania. Nawet jeśli próbkaH0:fxfyH1:fx=fyH0fxN(0,1)f^xf^yX=Yidentycznie, mogę uzyskać iloraz prawdopodobieństwa, który jest arbitralnie zbliżony do 1 dla . .fyfx

Jeśli znasz odpowiedni model prawdopodobieństwa dla danych, możesz zastosować kryterium informacji o karach, aby uszeregować modele alternatywne. Jednym ze sposobów jest użycie kodów BIC dwóch modeli prawdopodobieństwa (szacowanego pod i . Użyłem normalnego modelu prawdopodobieństwa, ale możesz łatwo uzyskać BIC z dowolnego typu procedury maksymalnego prawdopodobieństwa, ręcznie lub przy użyciu GLM. Ten post Stackoverflow dostaje nitty-gritty do dopasowania rozkładów. Przykład wykonania tego jest tutaj:H0H1

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

daje

> mean(p)
[1] 0.034

p jest proporcją razy, że BIC modelu zerowego (oddzielne modele) jest lepszy (niższy) niż model alternatywny (model równoważny). Jest to niezwykle zbliżone do nominalnego poziomu testów statystycznych 0,05.

Z drugiej strony, jeśli weźmiemy:

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  x <- x + 0.4*g
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

Daje:

> mean(p)
[1] 0.437

Podobnie jak w przypadku NHST istnieją subtelne problemy dotyczące mocy i fałszywie dodatnich poziomów błędów, które należy zbadać za pomocą symulacji przed wyciągnięciem ostatecznych wniosków.

Myślę, że podobna (być może bardziej ogólna metoda) wykorzystuje statystyki bayesowskie do porównywania a posteriori oszacowanej według dowolnego z modeli prawdopodobieństwa.


2
AdamO wydaje się, że łączysz „testowanie równości” z „testowaniem równoważności”. Istnieje dziesięciolecia i solidna literatura na temat metod i ich zastosowania.
Alexis,

1
Patrz na przykład Wellek, S. (2010). Testowanie hipotez statystycznych o równoważności i niewiedzy . Chapman and Hall / CRC Press, drugie wydanie.
Alexis,

@Alexis hmm, niestety nie mamy dostępu do biblioteki. Czy twierdzisz, że równoważność jest tym samym co brak niższości, o ile szacunki mieszczące się w marginesie są uważane za równoważne?
AdamO,

1
Niezupełnie: non-inferiority to jednostronny test tego, czy nowe leczenie nie działa gorzej niż jakaś standardowa pomniejszona o najmniejszą istotną różnicę określoną z góry . Testy równoważności są testami hipotezy zerowej, że dwie (lub więcej) wielkości różnią się - w obu kierunkach - o więcej niż najmniejszą istotną różnicę określoną z góry . Niektóre z najważniejszych artykułów:
Alexis,

Schuirmann, DA (1987). Porównanie procedury dwustronnych testów i podejścia opartego na mocy do oceny równoważności średniej biodostępności . Journal of Pharmacokinetics and Biopharmaceutics , 15 (6): 657–680.
Alexis,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.