Standardowa definicja wartości odstającej dla wykresu Box i Whisker to punkty spoza zakresu , gdzie I Q R = Q 3 - Q 1 i Q 1 to pierwszy kwartyl i Q 3 to trzeci kwartyl danych.
Jaka jest podstawa tej definicji? Przy dużej liczbie punktów nawet idealnie normalny rozkład zwraca wartości odstające.
Załóżmy na przykład, że zaczynasz od sekwencji:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Ta sekwencja tworzy ranking percentylowy 4000 punktów danych.
Testowanie normalności dla qnorm
tej serii daje:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Wyniki są dokładnie zgodne z oczekiwaniami: normalność rozkładu normalnego jest normalna. Utworzenie qqnorm(qnorm(xseq))
(zgodnie z oczekiwaniami) linii prostej danych:
Jeśli zostanie utworzony wykres pudełkowy tych samych danych, boxplot(qnorm(xseq))
powstanie wynik:
Wykres pudełkowy, w przeciwieństwie do shapiro.test
, ad.test
lub qqnorm
identyfikuje kilka punktów jako wartości odstające, gdy wielkość próbki jest wystarczająco duża (jak w tym przykładzie).