W R mam próbkę 348 miar i chcę wiedzieć, czy mogę założyć, że jest ona normalnie dystrybuowana do przyszłych testów.
Zasadniczo po kolejnej odpowiedzi stosu patrzę na wykres gęstości i wykres QQ z:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
Nie mam dużego doświadczenia w statystyce, ale wyglądają jak przykłady normalnych dystrybucji, które widziałem.
Następnie przeprowadzam test Shapiro-Wilk:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
Jeśli zinterpretuję to poprawnie, powie mi, że można bezpiecznie odrzucić hipotezę zerową, a mianowicie, że rozkład jest normalny.
Spotkałem jednak dwa posty Stack ( tutaj i tutaj ), które mocno podważają przydatność tego testu. Wygląda na to, że jeśli próbka jest duża (czy 348 jest uważana za dużą?), Zawsze powie, że rozkład nie jest normalny.
Jak mam to wszystko interpretować? Czy powinienem trzymać się wykresu QQ i zakładać, że mój rozkład jest normalny?