To jest kolejne pytanie do tego, co napisał tutaj Frank Harrell :
Z mojego doświadczenia wynika, że wymagany rozmiar próbki, aby rozkład t był dokładny, jest często większy niż rozmiar próbki pod ręką. Test rangowanych znaków Wilcoxona jest niezwykle wydajny, jak powiedziałeś, i jest solidny, więc prawie zawsze wolę go od testu t
Jeśli dobrze to rozumiem - porównując lokalizację dwóch niedopasowanych próbek, wolelibyśmy zastosować test sumy rang Wilcoxona zamiast niesparowanego testu t, jeśli nasze próbki są małe.
Czy istnieje teoretyczna sytuacja, w której wolelibyśmy test sumy rang Wilcoxona niż niesparowany test t, nawet jeśli wielkości próbek w naszych dwóch grupach są stosunkowo duże?
Moja motywacja do tego pytania wynika z obserwacji, że w przypadku testu t dla pojedynczej próbki użycie go do niezbyt małej próbki o przekrzywionym rozkładzie da błąd typu I:
n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error