Podobnie jak inne testy parametryczne, analiza wariancji zakłada, że dane pasują do rozkładu normalnego. Jeśli twoja zmienna pomiarowa nie jest normalnie rozłożona, możesz zwiększyć prawdopodobieństwo fałszywie dodatniego wyniku, jeśli przeanalizujesz dane za pomocą anova lub innego testu, który zakłada normalność. Na szczęście anova nie jest bardzo wrażliwa na umiarkowane odchylenia od normalności; badania symulacyjne, z wykorzystaniem różnych rozkładów niestandardowych, wykazały, że to naruszenie nie ma dużego wpływu na współczynnik fałszywie dodatnich wyników (Glass i wsp. 1972, Harwell i wsp. 1992, Lix i wsp. 1996). Wynika to z faktu, że gdy pobierasz dużą liczbę losowych próbek z populacji, średnie z tych próbek są w przybliżeniu normalnie rozmieszczone, nawet jeśli populacja nie jest normalna.
Możliwe jest przetestowanie dobroci dopasowania zestawu danych do rozkładu normalnego. Nie sugeruję, abyś to zrobił, ponieważ wiele zestawów danych, które są znacznie nienormalne, byłoby idealnie odpowiednich dla anova.
Zamiast tego, jeśli masz wystarczająco duży zestaw danych, proponuję po prostu spojrzeć na histogram częstotliwości. Jeśli wygląda to mniej więcej normalnie, śmiało wykonaj anovę. Jeśli wygląda na rozkład normalny, który został zepchnięty na bok, jak dane siarczanu powyżej, powinieneś spróbować różnych transformacji danych i zobaczyć, czy którykolwiek z nich sprawia, że histogram wygląda bardziej normalnie. Jeśli to nie zadziała, a dane nadal wyglądają na bardzo nietypowe, prawdopodobnie nadal można analizować dane za pomocą anova. Możesz jednak chcieć to przeanalizować za pomocą testu nieparametrycznego. Prawie każdy parametryczny test statystyczny ma nieparametryczny substytut, taki jak test Kruskala – Wallisa zamiast jednostronnej anowy, test rang Wilcoxona zamiast sparowanego testu t oraz korelacja rang Spearmana zamiast regresji liniowej. Te testy nieparametryczne nie zakładają, że dane pasują do rozkładu normalnego. Zakładają jednak, że dane w różnych grupach mają taki sam rozkład między sobą; jeśli różne grupy mają różne rozkłady kształtów (na przykład jedna jest pochylona w lewo, inna jest pochylona w prawo), test nieparametryczny może nie być lepszy niż parametryczny.
Referencje
- Glass, GV, PD Peckham i JR Sanders. 1972. Konsekwencje niespełnienia założeń leżących u podstaw analizy wariancji i kowariancji przy ustalonych efektach. Rev. Educ. Res. 42: 237-288.
- Harwell, MR, EN Rubinstein, WS Hayes i CC Olds. 1992. Podsumowanie wyników Monte Carlo w badaniach metodologicznych: przypadki ANOVA jedno- i dwuskładnikowe o ustalonym działaniu. J. Educ. Stat. 17: 315–339.
- Lix, LM, JC Keselman i HJ Keselman. 1996. Ponownie omówiono konsekwencje naruszeń założeń: ilościowy przegląd alternatyw dla jednokierunkowej analizy wariancji testu F. Rev. Educ. Res. 66: 579–619.