Dlaczego musisz testować normalność?
Standardowe założenie regresji liniowej jest takie, że teoretyczne reszty są niezależne i normalnie rozłożone. Obserwowane reszty są oszacowaniem teoretycznych reszty, ale nie są niezależne (istnieją reszty, które usuwają część zależności, ale nadal dają jedynie przybliżenie prawdziwych reszty). Zatem test zaobserwowanych reszt nie gwarantuje, że teoretyczne reszty są zgodne.
Jeśli teoretyczne reszty nie są dokładnie rozłożone normalnie, ale wielkość próby jest wystarczająco duża, wówczas Centralne Twierdzenie Graniczne mówi, że zwykłe wnioskowanie (testy i przedziały ufności, ale niekoniecznie przedziały prognozowania) oparte na założeniu normalności nadal będzie w przybliżeniu poprawne .
Należy również pamiętać, że testy normalności są testami wykluczającymi, mogą powiedzieć, że jest mało prawdopodobne, aby dane pochodziły z rozkładu normalnego. Ale jeśli test nie jest znaczący, co nie oznacza, że dane pochodzą z rozkładu normalnego, może to również oznaczać, że po prostu nie masz wystarczającej mocy, aby zobaczyć różnicę. Większe rozmiary próbek dają więcej mocy do wykrywania nienormalności, ale większe próbki i CLT oznaczają, że nienormalność jest najmniej ważna. Tak więc dla małych wielkości próby ważne jest założenie normalności, ale testy są bez znaczenia, dla dużych próbek próby mogą być dokładniejsze, ale kwestia dokładnej normalności staje się bez znaczenia.
Tak więc łącząc wszystkie powyższe, ważniejsze niż test dokładnej normalności jest zrozumienie nauki stojącej za danymi, aby sprawdzić, czy populacja jest wystarczająco zbliżona do normalnej. Wykresy takie jak qqplots mogą być dobrą diagnostyką, ale potrzebne jest również zrozumienie nauki. Jeśli istnieje obawa, że istnieje zbyt duża skośność lub potencjał wartości odstających, dostępne są metody nieparametryczne, które nie wymagają założenia normalności.