Załóżmy następującą sytuację:
mamy dużą liczbę (np. 20) z małą wielkością grupy (np. n = 3). Zauważyłem, że jeśli wygeneruję wartości z rozkładu jednorodnego, reszty będą wyglądać w przybliżeniu normalnie, mimo że rozkład błędu jest jednolity. Poniższy kod R demonstruje to zachowanie:
n.group = 200
n.per.group = 3
x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)
Jeśli spojrzę na resztkę próbki w grupie trzyosobowej, powód takiego zachowania jest jasny:
Ponieważ jest sumą zmiennych losowych o nie różniącym się w przybliżeniu standardowym odchyleniu, jego rozkład jest nieco bliższy rozkładowi normalnemu niż poszczególnym warunkom.
Załóżmy teraz, że mam taką samą sytuację z danymi rzeczywistymi zamiast danych symulowanych. Chcę ocenić, czy istnieją założenia ANOVA dotyczące normalności. Większość zalecanych procedur zaleca kontrolę wzrokową pozostałości (np. Wykres QQ) lub test normalności na pozostałościach. Jak w powyższym przykładzie nie jest to optymalne rozwiązanie dla małych grup.
Czy jest lepsza alternatywa, gdy mam wiele grup małych rozmiarów?